视频区国产欧美国产日本_99re8热在线视观看视频_国产精品盗摄!偷窥盗摄_丁香五月俺也色

TEL: 0752-3616551 15917765495

多模態(tài)大模型引領(lǐng)「以人為本」的智能汽車交互革新,商湯絕影亮相WAIC 2024

Jul,15,2024 << Return list

2024年7月5日,中國上海——2024世界人工智能大會暨人工智能全球治理高級別會議(WAIC 2024)于7月4日-7月7日在上海舉行。商湯絕影攜多款基于全新發(fā)布的商湯「日日新5.5」原生多模態(tài)大模型打造的智能駕駛和智能座艙產(chǎn)品亮相本屆WAIC,引領(lǐng)「以人為本」的智能汽車交互革新。

作為加速智能汽車駛?cè)階GI時代的戰(zhàn)略合作伙伴,商湯絕影展示了可解釋、可交互的自動駕駛大模型DriveAGI,同時還發(fā)布了行業(yè)首個車載生成式交互界面 「隨心界面」(FlexInterface)、「隨意操控」(AgentFlow)等車載AI Agent應(yīng)用。此外,商湯絕影自動駕駛小巴也亮相本屆WAIC,并成為大會唯一承擔(dān)接駁任務(wù)的L4級別自動駕駛小巴。

在7月5日由WAIC 2024戰(zhàn)#xad;略合作伙伴商湯科技召開的「大愛無疆·向新力」人工智能論壇上,商湯科技發(fā)布國內(nèi)首個所見即所得模型「日日新5o」,實時流式多模態(tài)交互體驗對標(biāo)GPT-4o,展現(xiàn)采用混合端云協(xié)同專家架構(gòu)的商湯「日日新5.5」大模型的強(qiáng)大實力。商湯科技聯(lián)合創(chuàng)始人、首席科學(xué)家、絕影智能汽車事業(yè)群總裁王曉剛表示,“原生多模態(tài)大模型是打開AGI大門的鑰匙,商湯絕影正在激發(fā)AGI創(chuàng)造力,推動多模態(tài)大模型與智能汽車的深度融合,打造一系列全新的車載智能化產(chǎn)品,加速智能汽車向超級智能體進(jìn)化,引領(lǐng)一場「以人為本」的智能汽車交互的變革?!?/p>

1.jpg


王曉剛在「大愛無疆·向新力」論壇分享商湯絕影最新的技術(shù)和產(chǎn)品進(jìn)展

真·「以人為本」,商湯絕影多模態(tài)大模型引領(lǐng)智能汽車交互革新

多模態(tài)大模型能夠?qū)⒄Z音、文字、圖像、手勢、視頻等各種模態(tài)進(jìn)行高效且深度地融合,提供更加豐富且自然的人機(jī)交互體驗。

過去許多模型處理不同模態(tài)信息是先把語音等輸入轉(zhuǎn)化為文字,文字和圖像結(jié)合進(jìn)行分析,輸出反饋也是先生成文字,根據(jù)文字再生成語音輸出,會有大量信息丟失和很高的延遲。

由「日日新5.5」體系支持的全新商湯多模態(tài)大模型是一種端到端的模型,也就是文字、語音、視頻等模態(tài)一同輸入,模型統(tǒng)一處理后輸出相應(yīng)模態(tài)的信息,相較于過去的方案,多模態(tài)融合的技術(shù)難度是幾何倍數(shù)的提升。

技術(shù)上的高難度是商湯行業(yè)領(lǐng)先的原生多模態(tài)能力的直接體現(xiàn)。今年4月發(fā)布的「日日新5.0」是國內(nèi)首個對標(biāo)GPT-4 Turbo的國產(chǎn)大模型,「日日新5.5」體系更是全面升級,數(shù)學(xué)推理、英文能力和指令跟隨等能力明顯增強(qiáng),交互效果和多項核心指標(biāo)實現(xiàn)對標(biāo)GPT-4o。

此前GPT-4o的發(fā)布為消費(fèi)者展示了多模態(tài)實時交互的方式,讓更多人領(lǐng)略多模態(tài)感知和交互的魅力,也開始幫助釋放多模態(tài)大模型的商業(yè)落地想象空間。

相較于手機(jī),智能汽車才是更適合承載多模態(tài)大模型的落地場景。因為智能汽車內(nèi)外的各種攝像頭是常開的,用戶可以實時跟汽車通過多模態(tài)的方式進(jìn)行交互。同時,智能汽車的保有量不斷增加,能夠產(chǎn)生豐富的終端用戶反饋和數(shù)據(jù)信息,讓模型不斷迭代成長。

這些因素綜合展現(xiàn)了一個令人激動的未來智能汽車發(fā)展方向:從智能汽車正在進(jìn)化為超級智能體,多模態(tài)大模型則是這一進(jìn)程的核心驅(qū)動力。

和OpenAI等公司相比,商湯絕影是智能汽車的核心供應(yīng)商,在智能駕駛和智能座艙領(lǐng)域具備豐富的量產(chǎn)經(jīng)驗,將以多模態(tài)大模型為核心加速「以人為本」的智能汽車交互革新。

智能汽車的人機(jī)交互正在從「以車為中心」向「以人為中心」轉(zhuǎn)型。在這個轉(zhuǎn)型中,現(xiàn)階段用戶仍需用文本或語音給智能汽車提供信息和數(shù)據(jù)以獲取被動式的服務(wù),其他的信息都丟失了,尚未真正做到主動服務(wù)用戶。商湯絕#xad;影正在用多模態(tài)大模型打造真·「以人為中心」的智能汽車交互方式,這種交互覆蓋了座艙、汽車周邊的環(huán)境,讓有關(guān)于“人”的信息不會被忽視,甚至它還突破了空間的限制,實現(xiàn)艙內(nèi)用戶與更廣闊的物理和數(shù)字世界的聯(lián)接。

2.jpg


商湯絕影在行業(yè)率先實現(xiàn)原生多模態(tài)大模型的車端部署


3.jpeg

商湯絕影車載端側(cè)8B多模態(tài)模型性能行業(yè)領(lǐng)先

車端模型部署能力是智能汽車交互革新不可或缺的技術(shù)保障,商湯絕影能夠以云側(cè)、端云結(jié)合、端側(cè)等全棧方式靈活部署多模態(tài)大模型,讓商湯原生多模態(tài)能力能夠快速落地智能汽車。

在本屆WAIC上,商湯絕影在行業(yè)率先實現(xiàn)原生多模態(tài)大模型的車端部署,并對外展示了在3個不同算力平臺上運(yùn)行2.1B或8B端側(cè)多模態(tài)大模型的適配能力。相較于動輒就有幾秒鐘延遲的云上部署方案,商湯絕影車載端側(cè)8B多模態(tài)模型可以實現(xiàn)首包延遲低至300毫秒以內(nèi),推理速度40Tokens/秒,為「以人為本」的智能汽車交互革新保駕護(hù)航。

DriveAGI可解釋、可交互,多模態(tài)讓端到端智駕安全可信賴

2022年底,商湯及其聯(lián)合實驗室提出了行業(yè)首個感知決策一體化自動駕駛通用模型UniAD,并在次年榮獲2023年國際計算機(jī)視覺與模式識別會議(CVPR)最佳論文,今年北京車展,商湯絕影展示了UniAD的實車上路成果,持續(xù)引領(lǐng)端到端自動駕駛的創(chuàng)新潮流。

北京車展以來,UniAD穩(wěn)步前行,通過持續(xù)的數(shù)據(jù)采集、真值生產(chǎn)、模型訓(xùn)練、實車測試,UniAD系統(tǒng)穩(wěn)定性大幅增強(qiáng),體驗連續(xù)性和舒適性不斷提升。在本屆WAIC上,商湯絕影展示了只搭載7個攝像頭的UniAD,在無圖情況下實現(xiàn)城區(qū)復(fù)雜道路、鄉(xiāng)村小路等場景一鏡到底的實車演示,端到端智駕模型持續(xù)迭代進(jìn)化。

UniAD顯著提升了智駕系統(tǒng)的駕駛能力,但純粹的端到端自動駕駛模型不是自動駕駛的最終答案,進(jìn)一步具備對開放世界的感知、推理、決策及交互能力,將是智能汽車走向超級智能體的重要標(biāo)志。因此,商湯絕影開創(chuàng)性地研發(fā)了首個應(yīng)用于駕駛決策規(guī)劃的智駕大模型,即基于多模態(tài)大模型打造的DriveAGI,讓端到端智駕可解釋、可交互。

DriveAGI增強(qiáng)了端到端系統(tǒng)的可解釋性,不僅讓車輛能夠更像人一樣理解復(fù)雜的現(xiàn)實世界,洞察各類交通參與者的行為動機(jī),快速學(xué)習(xí)各種交通規(guī)則,掌握瞬息萬變的道路信息,還能向用戶解釋駕駛決策的推理過程。

目前,商湯絕影DriveAGI智駕大模型能在無限寬標(biāo)識的道路上,安全順利穿過兩個石墩形成的狹窄通道;它還能準(zhǔn)確辨識并理解包括公交車道、潮汐車道及施工車道等各類交通標(biāo)識,并自主進(jìn)行變道或規(guī)避,甚至當(dāng)后方有救護(hù)車接近時,DriveAGI會進(jìn)行思考推理,最終進(jìn)行及時變道避讓。

微信圖片_20240706142814.png


DriveAGI不僅能識別救護(hù)車,還能做到主動讓行執(zhí)勤救護(hù)車

多模態(tài)大模型還賦予了DriveAGI強(qiáng)大的可交互性,用戶不僅可以通過問詢讓DriveAGI解釋自己的決策過程,還能通過語音或手勢指令來控制自動駕駛行為。例如,未來在自動駕駛狀態(tài)下,導(dǎo)航指示車輛需在下個路口調(diào)頭以抵達(dá)目的地,但駕駛員知曉可在前方有近路可以直接轉(zhuǎn)彎,那么他只需對系統(tǒng)說出「直接左拐」,系統(tǒng)便會根據(jù)當(dāng)前路況來執(zhí)行這一指令。

UniAD和DriveAGI智駕大模型的驚艷表現(xiàn)依賴于商湯絕影強(qiáng)大的模型能力,同時也需要大量的高質(zhì)量數(shù)據(jù)支持學(xué)習(xí)和訓(xùn)練。作為「新質(zhì)生產(chǎn)力」,以多模態(tài)為代表的大模型極大提高了端到端智駕訓(xùn)練、迭代的生產(chǎn)效率。

以真實的多模態(tài)數(shù)據(jù)為基礎(chǔ),商湯絕影的世界模型、交通流仿真大模型等一系列云端大模型源源不斷生產(chǎn)出高質(zhì)量數(shù)據(jù),同時通過各個大模型之間相互協(xié)同,實現(xiàn)場景生產(chǎn)、交通流仿真、真值生產(chǎn)、系統(tǒng)診斷等能力,打造出智駕大模型時代的端到端數(shù)據(jù)閉環(huán),為端到端自動駕駛方案的落地與進(jìn)化提供有力的保障。

多模態(tài)融入智能座艙,讓智能汽車成為你的專屬「賈維斯」

今天的智能汽車配備了豐富且強(qiáng)大的硬件,能夠為用戶打造一個獨立的交互環(huán)境,它是AGI落地的最佳場景。面向智能座艙,商湯絕影充分釋放多模態(tài)大模型強(qiáng)大感知和交互能力,激發(fā)更多想象空間。

依靠行業(yè)領(lǐng)先的多模態(tài)能力,商湯絕影正在打造多模態(tài)大模型引擎產(chǎn)品「座艙大腦」(CockpitBrain),構(gòu)建一系列AI大模型座艙產(chǎn)品矩陣,讓鋼鐵俠的人工智能幫手「賈維斯」走進(jìn)智能汽車,成為每一個用戶的AI出行伙伴。

在本屆 WAIC上,商湯絕影正式發(fā)布行業(yè)首個生成式交互界面產(chǎn)品「隨心界面」(FlexInterface)以及「隨意操控」(AgentFlow)等多個車載 AI Agent,旨在通過AI技術(shù),徹底改變用戶與車載系統(tǒng)的交互方式。

依托于 AI 大模型的即時生成和修改交互界面的能力,FlexInterface在大模型解析用戶需求的基礎(chǔ)上,結(jié)合設(shè)計系統(tǒng)的框架和范式,實現(xiàn)高度動態(tài)和個性化的界面生成。無論是天氣、時間、節(jié)日、紀(jì)念日,還是周圍環(huán)境變化,FlexInterface 都能自動變換界面風(fēng)格,提供最佳用戶體驗。

AgentFlow 通過大模型的推理能力,模擬人類點擊操作,實現(xiàn)對APP和網(wǎng)站的直接操作。用戶只需使用自然語言,就能讓AI自主選擇多個工具完成復(fù)雜任務(wù),無需主機(jī)廠進(jìn)行額外的研發(fā)適配。這種能力不僅提升了操作的便捷性,還極大地擴(kuò)展了車載系統(tǒng)的功能范圍。例如,用戶能讓AgentFlow自動搜索并預(yù)約適合看球的酒吧,提供從搜索到預(yù)訂的一站式服務(wù)。

在商湯絕影的現(xiàn)場演示中,用戶通過FlexInterface生成了一個「歐洲杯」風(fēng)格的主題,大模型自動生成具備歐洲杯元素的中控屏幕桌面和圖標(biāo);同時,用戶還能通過AgentFlow隨時播放歐洲杯或足球相關(guān)的音樂,展示了這些創(chuàng)新產(chǎn)品在實際應(yīng)用中的強(qiáng)大能力和靈活性。

80.jpeg


FlexInterface通過大模型生成的「歐洲杯」主題的車載界面

除此之外,本屆WAIC上,商湯絕影在傳統(tǒng)智能汽車「哨兵模式」的基礎(chǔ)上打造了「多模態(tài)哨兵」, 能夠全面理解并應(yīng)對開放世界中可能對車輛造成損害的各種潛在隨機(jī)危險行為,諸如劃車、噴涂車身、拍打砸車、拉拽門把手、撬門以及踹車等,確保車輛安全無死角。

在多模態(tài)大模型的助力下,商湯絕影將讓智能汽車成為用戶的專屬「賈維斯」,讓智能汽車向著超級智能體的形態(tài)又邁進(jìn)了一步。

量產(chǎn)全面開花,開辟出行新范式,加速駛?cè)階GI時代

作為加速智能汽車駛?cè)階GI時代的戰(zhàn)略合作伙伴,商湯絕影不只是在大模型技術(shù)上領(lǐng)航新時代,產(chǎn)品化量產(chǎn)落地也已經(jīng)全面開花。

在智能座艙領(lǐng)域,商湯絕影的大模型產(chǎn)品已經(jīng)在多家主流汽車制造企業(yè)的量產(chǎn)車型中得到廣泛應(yīng)用。例如,商湯的大模型已全面助力小米SU7的小愛語音助手車載語音場景應(yīng)用。

6月25日,翼真 L380正式上市,行業(yè)領(lǐng)先的最新版本商湯「日日新」大模型實現(xiàn)量產(chǎn)上車,基于「商量」大語言模型和「秒畫」文生圖模型,商湯絕影為翼真 L380定制化打造了「AI閑聊」、「美圖壁紙」、「童話繪本」、「AI問診」等AI大模型座艙產(chǎn)品和功能,助力「陸地空客」升維智能座艙體驗。

在智能駕駛領(lǐng)域,商湯絕影的量產(chǎn)智駕產(chǎn)品已落地包括廣汽埃安LX Plus、合眾哪吒S、廣汽昊鉑GT、紅旗等品牌及車型,高速NOA等功能也開始落地,同時絕影還在推進(jìn)更多車型交付,已具備了從感知到規(guī)控的全棧智駕技術(shù)量產(chǎn)交付能力。6月初,廣汽和一汽入選國內(nèi)首批L3試點項目,商湯絕影為他們提供面向L3的感知算法。不止如此,商湯絕影目前的多個量產(chǎn)智駕方案在未來均可升級為端到端架構(gòu)。

更高階的L4自動駕駛領(lǐng)域,商湯絕影自動駕駛小巴成為WAIC 2024唯一承擔(dān)接駁任務(wù)的L4級別自動駕駛小巴,提供多個地點之間的需求響應(yīng)式自動駕駛巴士出行體驗。

這背后是商湯絕影硬核的技術(shù)實力和強(qiáng)大的落地運(yùn)營能力。目前,絕影L4級別的自動駕駛小巴的測試與運(yùn)營總里程累計已超3,000,000公里,并在江蘇無錫、陜西西咸新區(qū)等多地開展自動駕駛接駁服務(wù)。

在上海臨港,絕影L4級自動駕駛小巴已經(jīng)面向公眾進(jìn)行日常運(yùn)營。商湯絕影與上海臨港新片區(qū)公共交通有限公司共同打造的智能網(wǎng)聯(lián)公交場景,采用“響應(yīng)式公交”模式按需響應(yīng),已實際投入的醫(yī)療專線和上海海洋大學(xué)專線,預(yù)約乘坐人數(shù)累計已超過16,000人次。

商湯絕影的大模型產(chǎn)品正在融入智能汽車和智慧出行的方方面面,開辟全新的出行范式,加速智能汽車駛?cè)階GI時代。