商湯“造車”,帶來(lái)“真”端到端方案
作者 | 黎 瀾
編輯 | 章漣漪
商湯“造車”,并不是新聞。當(dāng)然,并不是直接下場(chǎng)制造車輛,而是依托原創(chuàng)AI技術(shù),帶來(lái)從智能駕駛、智能座艙到車路協(xié)同的全棧體系。早在2021年,商湯即發(fā)布了智能汽車解決方案獨(dú)立新品牌SenseAuto絕影。但三年過(guò)去,商湯在汽車領(lǐng)域的聲量并不算大,且落地成果主要在智能座艙領(lǐng)域,對(duì)此商湯顯然是不滿足的。
于是,4月25日,2024北京車展首日,商湯絕影舉行發(fā)布會(huì),重申進(jìn)軍智能汽車決心的同時(shí),也展現(xiàn)了三項(xiàng)技術(shù):面向量產(chǎn)的端到端自動(dòng)駕駛解決方案UniAD(Unified Autonomous Driving)的道路測(cè)試表現(xiàn)、以多模態(tài)場(chǎng)景大腦為核心的AI大模型座艙產(chǎn)品矩陣,以及全新座艙3D交互演示。盡管決心堅(jiān)定,產(chǎn)品譜系看起來(lái)也很全面,但作為一家以相對(duì)“輕量化”的人工智能起家的企業(yè),商湯還需要更多的落地成果,在強(qiáng)“制造”的汽車智能化領(lǐng)域再次證明自己。
01何為“真”端到端
商湯絕影在智能駕駛領(lǐng)域的選擇也是端到端。今年三月,特斯拉宣布全量推送 FSD Beta V12.3,證明了端到端已經(jīng)有了成熟的實(shí)踐后,頭部智駕公司、車企幾乎都宣布向端到端向端到端技術(shù)架構(gòu)演進(jìn)。
商湯絕影亦是如此,此次發(fā)布會(huì)上,其發(fā)布了UniAD為技術(shù)核心的端到端方案。根據(jù)官方說(shuō)法,這是中國(guó)第一也是目前唯一能實(shí)現(xiàn)真端到端的智駕方案,可以像所謂“像人一樣開車”。何為“真”端到端方案?在商湯絕影看來(lái),大部分端到端方案采用的是更容易落地的由感知和決策兩個(gè)模型組成的 “兩段式”架構(gòu),兩個(gè)模型之間依然存在信息傳遞過(guò)濾或丟失的問(wèn)題。
而UniAD將感知、決策、規(guī)劃等模塊都整合到一個(gè)全棧Transformer端到端模型,即感知決策一體化的真端到端自動(dòng)駕駛。商湯表示,現(xiàn)在市面上也存在大量所謂的端到端解決方案,但一般都分為三種。第一是決策層和感知層彼此獨(dú)立的云端計(jì)算工程,第二是組合式端到端,意味著連接感知層和決策層需要強(qiáng)力中介,也更容易落地,第三即真正的端到端,也就是商湯目前開發(fā)出的這套方案,能夠讓企業(yè)以最低成本滿足智駕需要。
發(fā)布會(huì)現(xiàn)場(chǎng),商湯絕影展示了搭載了其最新一代智駕方案的車輛,在無(wú)高精地圖條件下,僅依靠視覺感知的實(shí)際道路測(cè)試成果。從現(xiàn)場(chǎng)展示來(lái)看,無(wú)論是復(fù)雜城市道路還是無(wú)中線的鄉(xiāng)村道路上,車輛能高效準(zhǔn)確地完成包括大角度左轉(zhuǎn)上橋、避讓占道車輛及施工區(qū)域、繞行跑步行人等一系列高難度操作。實(shí)際上,盡管落地成果不算多,但商湯科技對(duì)智駕已經(jīng)研究多年,最早可以追溯到 2016 年,與本田的合作。隨后多年,商湯科技在智駕領(lǐng)域發(fā)布了多項(xiàng)成果,在 2023 年的 CVPR 大賽評(píng)選中,商湯共有兩篇論文登上最佳論文候選名單(Award Candidate),其中自動(dòng)駕駛研究論文《Planning-oriented Autonomous Driving》(以路徑規(guī)劃為導(dǎo)向的自動(dòng)駕駛)斬獲本屆CVPR最佳論文獎(jiǎng)(Best Paper Award)。
這也是UniAD為技術(shù)核心的端到端方案的重要理論基礎(chǔ)。在商湯絕影看來(lái),如果說(shuō)傳統(tǒng)的智駕方案每個(gè)功能都“自行其是”,那么端到端就是一個(gè)功能棧做所有事,其中UniAD是一種漸進(jìn)的端到端方案,把原本分開的感知和決策功能模塊按照靈活的方式連接在一起。在詳細(xì)步驟方面,UniAD利用多組問(wèn)詢(query)實(shí)現(xiàn)了全棧 Transformer 的端到端模型。在產(chǎn)出結(jié)果層面,用一個(gè)特定的車身問(wèn)詢(ego-vehicle-query)用來(lái)表示自車屬性。
規(guī)劃模塊 (Planner) 將車身問(wèn)詢與 BEV 特征進(jìn)行交互,包含對(duì)整個(gè)環(huán)境的感知與預(yù)測(cè)信息,因此能更好的學(xué)習(xí)既定的規(guī)劃任務(wù)。為了減少碰撞,UniAD 方案還利OCC的模塊的輸出對(duì)自車路徑進(jìn)行優(yōu)化,避免行駛到未來(lái)可能有物體占用的區(qū)域。在這個(gè)過(guò)程中,全部的模塊通過(guò)輸出特定的特征來(lái)幫助實(shí)現(xiàn)最終的目標(biāo)“規(guī)劃”。不過(guò),出于盈利考慮,商湯并沒(méi)有將端到端方案全量化,而是做了梯度規(guī)劃,在后兩個(gè)檔次的智駕方案中,才有完整的可搭載上車的端到端方案,這也為其成本的壓縮留足了空間。
02智能化的其他底牌
商湯另一個(gè)著重介紹的技術(shù)突破,是DriveAGI,這個(gè)自動(dòng)生成模型無(wú)論在智駕還是智艙都有多維度的落地。
依托多模態(tài)大模型強(qiáng)大的世界理解、推理能力、決策能力以及交互能力,據(jù)官方說(shuō)法,DriveAGI將是目前最貼近人類思維模式、最能理解人類意圖并有最強(qiáng)解決駕駛困難場(chǎng)景能力的技術(shù)方案。此前業(yè)內(nèi)也有供應(yīng)商嘗試過(guò)做“大包大攬”式智駕人工智能,比如毫末也實(shí)現(xiàn)過(guò) DrieGPT,運(yùn)用了和特斯拉一樣的 Transformer 架構(gòu),并且用上了 Atention方式固定機(jī)器學(xué)習(xí)能力,據(jù)官方消息,DriveGPT 的參數(shù)規(guī)模可以對(duì)標(biāo)GPT-2的水平,但是推出之后對(duì)外披露的上車案例并不算多。
而根據(jù)絕影說(shuō)法,DriveAGI已經(jīng)在多個(gè)測(cè)試方案中部署,不知道是否很快會(huì)有更多的落地消息?在智駕方面,從展示中,DriveAGI 表現(xiàn)出不錯(cuò)的“預(yù)知能力”,也就是構(gòu)建世界模型,通過(guò)把場(chǎng)景語(yǔ)言化,再用參數(shù)推理下一個(gè)時(shí)間單位里各個(gè)參數(shù)的變化,從而完成“預(yù)判”某個(gè)時(shí)間節(jié)點(diǎn)是否應(yīng)該立即剎車的問(wèn)題。
在智艙層面,多模態(tài)的 DriveAGI 能幫助乘客或駕駛?cè)死斫庵車h(huán)境,并給出行之有效的建議,例如,直接解讀復(fù)雜路標(biāo),或者在純粹只有視覺信息輸入的前提下理解車外的天氣。有了大模型作為“通用殺手锏”,商湯絕影的智能座艙成為商業(yè)變現(xiàn)的重要一環(huán),就可以理解了。這次智能座艙發(fā)布的底氣比較足,第一是確實(shí)有新技術(shù),即4 月 23 日發(fā)布的“日日新”大模型的嵌入,其二是找到了穩(wěn)定的甲方“小米汽車,據(jù)悉,商湯“日日新”大模型也全面助力小愛同學(xué)車載語(yǔ)音場(chǎng)景應(yīng)用。
在技術(shù)層面,商湯絕影方面稱,日日新 3.0能力領(lǐng)先GPT-4V。由于采取了端云結(jié)合的技術(shù)路線,令絕影可以在短期內(nèi)獲得車企的信息,商湯端側(cè)大模型大幅超越同量級(jí)大模型,越級(jí)比肩7B、13B大模型,更適合車端部署;诙嗄B(tài)大模型、大語(yǔ)言模型、文生圖模型等能力組合,商湯絕影構(gòu)建了以多模態(tài)場(chǎng)景大腦為核心的一系列全景感知的智艙產(chǎn)品。
與其說(shuō)商湯為智艙發(fā)現(xiàn)應(yīng)用場(chǎng)景,不如說(shuō)是創(chuàng)造了場(chǎng)景,再來(lái)給車企講一個(gè)需要此場(chǎng)景作為出口的故事。此外,由于搭載的是富有多模態(tài)感知能力的大模型,絕影智艙能主動(dòng)“問(wèn)診”,診斷車主的疲勞程度以及其他健康指標(biāo)。這也算是商湯的老本行,在 2018 年的商湯人工智能峰會(huì)上,商湯科技發(fā)布首款智能汽車產(chǎn)品SenseDrive DMS駕駛員監(jiān)控系統(tǒng),可以隨時(shí)判定駕駛員的清醒狀態(tài),延續(xù)了商湯以“視覺識(shí)別”起家的傳統(tǒng)。
另外,在更具科幻外表的“軟裝”層面,為了讓操作智艙的方式更靈活,絕影還設(shè)計(jì)了3D Gaze 人機(jī)交互系統(tǒng),向 Vision Pro 的進(jìn)階版看齊。用戶無(wú)需點(diǎn)按屏幕,通過(guò)眼神即可精準(zhǔn)控制中控圖標(biāo),完成多種交互操作。3D 動(dòng)態(tài)手勢(shì)讓用戶通過(guò)手勢(shì)即可隔空操控屏幕。而且這一切都是在無(wú)需佩戴外接設(shè)備的前提下進(jìn)行的。
03算力基礎(chǔ)設(shè)施帶來(lái)了底氣
端到端智駕方案,以及背后,DriveAGI背后,都需要大量算力作為支撐。有算法專家認(rèn)為,“端到端方案通常需要處理大量的傳感器數(shù)據(jù),包括圖像、點(diǎn)云、雷達(dá)等,直接輸出控制指令,對(duì)算力的要求較高。此外,為了訓(xùn)練這些復(fù)雜的神經(jīng)網(wǎng)絡(luò)模型,需要大量的標(biāo)注數(shù)據(jù)。與以往方案相比,端到端方案可能會(huì)帶來(lái)更高效的數(shù)據(jù)處理和更緊密的感知-規(guī)劃協(xié)同,但同時(shí)也對(duì)計(jì)算平臺(tái)的并行處理能力和存儲(chǔ)速度提出了更高要求。”對(duì)此,無(wú)論是在云端還是在硬件設(shè)施層面,商湯都表示很有信心。據(jù)介紹,SenseCore商湯大裝置浮點(diǎn)數(shù)達(dá)到 12000petaFLOPS。
部分車企/智駕廠商算力盤點(diǎn)。注:1EFLOPS=1000PFLOPS
而在去年 5 月,商湯AIDC建成,其設(shè)計(jì)的峰值算力高達(dá)3740 Petaflops(1 Petaflop等于每秒1千萬(wàn)億次浮點(diǎn)運(yùn)算),成為當(dāng)時(shí)亞洲最大的人工智能超算中心。根據(jù)商湯官方說(shuō)法,該中心的建成是為了滿足更行業(yè)場(chǎng)景對(duì)新業(yè)務(wù)的算力需求,“肥水不流外人田”,商湯絕影是一個(gè)絕佳的實(shí)驗(yàn)藍(lán)本,有足夠多的算力,也有為了適配上駕駛能力的多模態(tài)場(chǎng)景案例,能夠給大模型本身回饋更多運(yùn)行建議。如其展示圖片所示,商湯絕影算力超12000PFFLOPS ,剩下的主機(jī)廠和 Tier1 大多都在 1500PFFLOPS 以下。
AI 算力中心的建設(shè)作為一個(gè)“重”項(xiàng)目,日正益被車企重視。2021 年,特斯拉展示了自己的有 5670塊GPU的超級(jí)計(jì)算機(jī)群,算力可達(dá)21.8 EFLOPS,兩年前,小鵬和阿里云合作,在烏蘭察布建立“扶搖”超算中心,算力可達(dá)600PFLOPS,為當(dāng)時(shí)中國(guó)最大。2023 年中旬,理想和火山引擎合作,在山西建立自己的超算中心,算力可達(dá)750 PFLOPS。“樹大好乘涼”,國(guó)內(nèi)主流新能源主機(jī)廠都選擇了與頭部云供應(yīng)商合作,而商湯本身就可以算作“一顆大樹”,讓一個(gè)算力充沛的人工智能公司來(lái)做智駕,或許有不一樣的效果。
AI 發(fā)展,萬(wàn)物興。商湯 CEO徐立表示:“商湯生成式AI業(yè)務(wù)的增長(zhǎng),得益于各行各業(yè)對(duì)大模型的訓(xùn)練和推理的廣泛需求,這預(yù)示著中國(guó)硬科技投資的新周期正式開啟。商湯通過(guò)在各業(yè)務(wù)層面深入融合生成式AI能力,正在贏得新客戶,并推動(dòng)效率和生產(chǎn)力的全面提升。”根據(jù)財(cái)報(bào)顯示,2023 年商湯AI業(yè)務(wù)的營(yíng)收已經(jīng)占比35%。未來(lái),商湯會(huì)進(jìn)一步思考大模型給各項(xiàng)業(yè)務(wù)的賦能。比如絕影,就需要跑通大模型和智駕之間的閉環(huán),讓汽車搜集的信息反饋給算力中心,再創(chuàng)造更高效的技術(shù)解決方案,從而為更多品牌定制化智駕服務(wù)。
商湯各項(xiàng)業(yè)務(wù)營(yíng)收情況當(dāng)然,硬件基礎(chǔ)全部拉滿也并不和智能化方案的成功掛鉤,智能化供應(yīng)商最重要的還是尋找車企買單。北京車展上,商湯官宣了與哪吒的深度合作,據(jù)悉與算力強(qiáng)關(guān)聯(lián),商湯絕影為哪吒打造一塊堅(jiān)實(shí)的算力底座。而在智艙應(yīng)用層面,日日新大模型也將助力小米 SU7 艙內(nèi)的小愛同學(xué)。如此來(lái)看,布局多年,商湯在智能領(lǐng)域的布局正在慢慢發(fā)芽。當(dāng)然,能否經(jīng)歷時(shí)間的考驗(yàn),長(zhǎng)成參天大樹,還需要再觀察。
原文標(biāo)題 : 商湯“造車”,帶來(lái)“真”端到端方案
發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
圖片新聞
最新活動(dòng)更多
-
11月19日立即報(bào)名>> 【線下論壇】華邦電子與恩智浦聯(lián)合技術(shù)論壇
-
12月19日立即報(bào)名>> 【線下會(huì)議】OFweek 2024(第九屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會(huì)
-
精彩回顧立即查看>> 蔡司新能源汽車三電質(zhì)量解決方案
-
精彩回顧立即查看>> 蔡司新能源汽車三電質(zhì)量解決方案
-
精彩回顧立即查看>> 2024(第五屆)全球數(shù)字經(jīng)濟(jì)產(chǎn)業(yè)大會(huì)暨展覽會(huì)
-
精彩回顧立即查看>> 【線下會(huì)議】全數(shù)會(huì)2024電子元器件展覽會(huì)
- 1 “作弊器”不靈了?智駕的激光雷達(dá),正在被攝像頭替代
- 2 被逼墻角的Mobileye,祭出 CAIS 大旗,挑戰(zhàn)端到端大模型智能駕駛
- 3 4 激光雷達(dá)與純視覺方案,哪個(gè)才是自動(dòng)駕駛最優(yōu)選?
- 5 激光雷達(dá)即將降價(jià),純視覺回到鄙視鏈底層?
- 6 如何跑贏汽車智能化下半場(chǎng)?
- 7 從小鵬、理想、蔚來(lái)布局看自動(dòng)駕駛發(fā)展趨勢(shì)
- 8 智能駕駛的百生相,你是該信呢?還是該信呢?
- 9 比亞迪技術(shù)魚池大戰(zhàn)豐田工具箱,誰(shuí)將主導(dǎo)未來(lái)汽車市場(chǎng)?
- 10 全網(wǎng)最詳解! 美國(guó)禁止中國(guó)智駕究竟包括哪些?
- IE工程師(汽車智聯(lián)) 惠州碩貝德無(wú)線科技股份有限公司
- 現(xiàn)場(chǎng)技術(shù)支持工程師(汽車) 易思維(杭州)科技股份有限公司
- 銷售經(jīng)理(汽車新能源行業(yè)) 廣州瑞松智能科技股份有限公司
- 結(jié)構(gòu)工程師-汽車電子事業(yè)部(J10116) 深圳奧尼電子股份有限公司
- 銷售總監(jiān)-汽車電子方向 深圳市智立方自動(dòng)化設(shè)備股份有限公司
- 項(xiàng)目經(jīng)理(汽車內(nèi)飾&汽車電子) 伯恩光學(xué)(惠州)有限公司
- 高級(jí)軟件工程師 廣東省/深圳市
- 自動(dòng)化高級(jí)工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級(jí)銷售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術(shù)專家 廣東省/江門市
- 封裝工程師 北京市/海淀區(qū)
- 結(jié)構(gòu)工程師 廣東省/深圳市