侵權(quán)投訴
訂閱
糾錯(cuò)
加入自媒體

商湯“造車”,帶來(lái)“真”端到端方案

作者 | 黎   瀾

編輯 | 章漣漪

商湯“造車”,并不是新聞。當(dāng)然,并不是直接下場(chǎng)制造車輛,而是依托原創(chuàng)AI技術(shù),帶來(lái)從智能駕駛、智能座艙到車路協(xié)同的全棧體系。早在2021年,商湯即發(fā)布了智能汽車解決方案獨(dú)立新品牌SenseAuto絕影。但三年過(guò)去,商湯在汽車領(lǐng)域的聲量并不算大,且落地成果主要在智能座艙領(lǐng)域,對(duì)此商湯顯然是不滿足的。

于是,4月25日,2024北京車展首日,商湯絕影舉行發(fā)布會(huì),重申進(jìn)軍智能汽車決心的同時(shí),也展現(xiàn)了三項(xiàng)技術(shù):面向量產(chǎn)的端到端自動(dòng)駕駛解決方案UniAD(Unified Autonomous Driving)的道路測(cè)試表現(xiàn)、以多模態(tài)場(chǎng)景大腦為核心的AI大模型座艙產(chǎn)品矩陣,以及全新座艙3D交互演示。盡管決心堅(jiān)定,產(chǎn)品譜系看起來(lái)也很全面,作為一家以相對(duì)“輕量化”的人工智能起家的企業(yè),商湯還需要更多的落地成果,在強(qiáng)“制造”的汽車智能化領(lǐng)域再次證明自己。

01何為“真”端到端

商湯絕影在智能駕駛領(lǐng)域的選擇也是端到端。今年三月,特斯拉宣布全量推送 FSD Beta V12.3,證明了端到端已經(jīng)有了成熟的實(shí)踐后,頭部智駕公司、車企幾乎都宣布向端到端向端到端技術(shù)架構(gòu)演進(jìn)。

商湯絕影亦是如此,此次發(fā)布會(huì)上,其發(fā)布了UniAD為技術(shù)核心的端到端方案。根據(jù)官方說(shuō)法,這是中國(guó)第一也是目前唯一能實(shí)現(xiàn)真端到端的智駕方案,可以像所謂“像人一樣開車”。何為“真”端到端方案?在商湯絕影看來(lái),大部分端到端方案采用的是更容易落地的由感知和決策兩個(gè)模型組成的 “兩段式”架構(gòu),兩個(gè)模型之間依然存在信息傳遞過(guò)濾或丟失的問(wèn)題。

UniAD將感知、決策、規(guī)劃等模塊都整合到一個(gè)全棧Transformer端到端模型,即感知決策一體化的真端到端自動(dòng)駕駛。商湯表示,現(xiàn)在市面上也存在大量所謂的端到端解決方案,但一般都分為三種。第一是決策層和感知層彼此獨(dú)立的云端計(jì)算工程,第二是組合式端到端,意味著連接感知層和決策層需要強(qiáng)力中介,也更容易落地,第三即真正的端到端,也就是商湯目前開發(fā)出的這套方案,能夠讓企業(yè)以最低成本滿足智駕需要

發(fā)布會(huì)現(xiàn)場(chǎng),商湯絕影展示了搭載了其最新一代智駕方案的車輛,在無(wú)高精地圖條件下,僅依靠視覺感知的實(shí)際道路測(cè)試成果。從現(xiàn)場(chǎng)展示來(lái)看,無(wú)論是復(fù)雜城市道路還是無(wú)中線的鄉(xiāng)村道路上,車輛能高效準(zhǔn)確地完成包括大角度左轉(zhuǎn)上橋、避讓占道車輛及施工區(qū)域、繞行跑步行人等一系列高難度操作。實(shí)際上,盡管落地成果不算多,但商湯科技對(duì)智駕已經(jīng)研究多年,最早可以追溯到 2016 年,與本田的合作。隨后多年,商湯科技在智駕領(lǐng)域發(fā)布了多項(xiàng)成果,在 2023 年的 CVPR 大賽評(píng)選中,商湯共有兩篇論文登上最佳論文候選名單(Award Candidate),其中自動(dòng)駕駛研究論文《Planning-oriented Autonomous Driving》(以路徑規(guī)劃為導(dǎo)向的自動(dòng)駕駛)斬獲本屆CVPR最佳論文獎(jiǎng)(Best Paper Award)。

這也是UniAD為技術(shù)核心的端到端方案的重要理論基礎(chǔ)。在商湯絕影看來(lái),如果說(shuō)傳統(tǒng)的智駕方案每個(gè)功能都“自行其是”,那么端到端就是一個(gè)功能棧做所有事,其中UniAD是一種漸進(jìn)的端到端方案,把原本分開的感知和決策功能模塊按照靈活的方式連接在一起。在詳細(xì)步驟方面,UniAD利用多組問(wèn)詢(query)實(shí)現(xiàn)了全棧 Transformer 的端到端模型。在產(chǎn)出結(jié)果層面,用一個(gè)特定的車身問(wèn)詢(ego-vehicle-query)用來(lái)表示自車屬性。

規(guī)劃模塊 (Planner) 將車身問(wèn)詢與 BEV 特征進(jìn)行交互,包含對(duì)整個(gè)環(huán)境的感知與預(yù)測(cè)信息,因此能更好的學(xué)習(xí)既定的規(guī)劃任務(wù)。為了減少碰撞,UniAD 方案還利OCC的模塊的輸出對(duì)自車路徑進(jìn)行優(yōu)化,避免行駛到未來(lái)可能有物體占用的區(qū)域。在這個(gè)過(guò)程中,全部的模塊通過(guò)輸出特定的特征來(lái)幫助實(shí)現(xiàn)最終的目標(biāo)“規(guī)劃”。不過(guò),出于盈利考慮,商湯并沒(méi)有將端到端方案全量化,而是做了梯度規(guī)劃,在后兩個(gè)檔次的智駕方案中,才有完整的可搭載上車的端到端方案,這也為其成本的壓縮留足了空間。

02智能化的其他底牌

商湯另一個(gè)著重介紹的技術(shù)突破,是DriveAGI,這個(gè)自動(dòng)生成模型無(wú)論在智駕還是智艙都有多維度的落地。

依托多模態(tài)大模型強(qiáng)大的世界理解、推理能力、決策能力以及交互能力,據(jù)官方說(shuō)法,DriveAGI將是目前最貼近人類思維模式、最能理解人類意圖并有最強(qiáng)解決駕駛困難場(chǎng)景能力的技術(shù)方案。此前業(yè)內(nèi)也有供應(yīng)商嘗試過(guò)做“大包大攬”式智駕人工智能,比如毫末也實(shí)現(xiàn)過(guò) DrieGPT,運(yùn)用了和特斯拉一樣的 Transformer 架構(gòu),并且用上了 Atention方式固定機(jī)器學(xué)習(xí)能力,據(jù)官方消息,DriveGPT 的參數(shù)規(guī)模可以對(duì)標(biāo)GPT-2的水平,但是推出之后對(duì)外披露的上車案例并不算多。

而根據(jù)絕影說(shuō)法,DriveAGI已經(jīng)在多個(gè)測(cè)試方案中部署,不知道是否很快會(huì)有更多的落地消息?在智駕方面,從展示中,DriveAGI 表現(xiàn)出不錯(cuò)的“預(yù)知能力”,也就是構(gòu)建世界模型,通過(guò)把場(chǎng)景語(yǔ)言化,再用參數(shù)推理下一個(gè)時(shí)間單位里各個(gè)參數(shù)的變化,從而完成“預(yù)判”某個(gè)時(shí)間節(jié)點(diǎn)是否應(yīng)該立即剎車的問(wèn)題。

在智艙層面,多模態(tài)的 DriveAGI 能幫助乘客或駕駛?cè)死斫庵車h(huán)境,并給出行之有效的建議,例如,直接解讀復(fù)雜路標(biāo),或者在純粹只有視覺信息輸入的前提下理解車外的天氣。有了大模型作為“通用殺手锏”,商湯絕影的智能座艙成為商業(yè)變現(xiàn)的重要一環(huán),就可以理解了。這次智能座艙發(fā)布的底氣比較足,第一是確實(shí)有新技術(shù),即4 月 23 日發(fā)布的“日日新”大模型的嵌入,其二是找到了穩(wěn)定的甲方“小米汽車,據(jù)悉,商湯“日日新”大模型也全面助力小愛同學(xué)車載語(yǔ)音場(chǎng)景應(yīng)用。

在技術(shù)層面,商湯絕影方面稱,日日新 3.0能力領(lǐng)先GPT-4V。由于采取了端云結(jié)合的技術(shù)路線,令絕影可以在短期內(nèi)獲得車企的信息,商湯端側(cè)大模型大幅超越同量級(jí)大模型,越級(jí)比肩7B、13B大模型,更適合車端部署;诙嗄B(tài)大模型、大語(yǔ)言模型、文生圖模型等能力組合,商湯絕影構(gòu)建了以多模態(tài)場(chǎng)景大腦為核心的一系列全景感知的智艙產(chǎn)品。

與其說(shuō)商湯為智艙發(fā)現(xiàn)應(yīng)用場(chǎng)景,不如說(shuō)是創(chuàng)造了場(chǎng)景,再來(lái)給車企講一個(gè)需要此場(chǎng)景作為出口的故事。此外,由于搭載的是富有多模態(tài)感知能力的大模型,絕影智艙能主動(dòng)“問(wèn)診”,診斷車主的疲勞程度以及其他健康指標(biāo)。這也算是商湯的老本行,在 2018 年的商湯人工智能峰會(huì)上,商湯科技發(fā)布首款智能汽車產(chǎn)品SenseDrive DMS駕駛員監(jiān)控系統(tǒng),可以隨時(shí)判定駕駛員的清醒狀態(tài),延續(xù)了商湯以“視覺識(shí)別”起家的傳統(tǒng)。

另外,在更具科幻外表的“軟裝”層面,為了讓操作智艙的方式更靈活,絕影還設(shè)計(jì)了3D Gaze 人機(jī)交互系統(tǒng),向 Vision Pro 的進(jìn)階版看齊。用戶無(wú)需點(diǎn)按屏幕,通過(guò)眼神即可精準(zhǔn)控制中控圖標(biāo),完成多種交互操作。3D 動(dòng)態(tài)手勢(shì)讓用戶通過(guò)手勢(shì)即可隔空操控屏幕。而且這一切都是在無(wú)需佩戴外接設(shè)備的前提下進(jìn)行的。

03算力基礎(chǔ)設(shè)施帶來(lái)了底氣

端到端智駕方案,以及背后,DriveAGI背后,都需要大量算力作為支撐。有算法專家認(rèn)為,“端到端方案通常需要處理大量的傳感器數(shù)據(jù),包括圖像、點(diǎn)云、雷達(dá)等,直接輸出控制指令,對(duì)算力的要求較高。此外,為了訓(xùn)練這些復(fù)雜的神經(jīng)網(wǎng)絡(luò)模型,需要大量的標(biāo)注數(shù)據(jù)。與以往方案相比,端到端方案可能會(huì)帶來(lái)更高效的數(shù)據(jù)處理和更緊密的感知-規(guī)劃協(xié)同,但同時(shí)也對(duì)計(jì)算平臺(tái)的并行處理能力和存儲(chǔ)速度提出了更高要求。”對(duì)此,無(wú)論是在云端還是在硬件設(shè)施層面,商湯都表示很有信心。據(jù)介紹,SenseCore商湯大裝置浮點(diǎn)數(shù)達(dá)到 12000petaFLOPS。

部分車企/智駕廠商算力盤點(diǎn)。注:1EFLOPS=1000PFLOPS

而在去年 5 月,商湯AIDC建成,其設(shè)計(jì)的峰值算力高達(dá)3740 Petaflops(1 Petaflop等于每秒1千萬(wàn)億次浮點(diǎn)運(yùn)算),成為當(dāng)時(shí)亞洲最大的人工智能超算中心。根據(jù)商湯官方說(shuō)法,該中心的建成是為了滿足更行業(yè)場(chǎng)景對(duì)新業(yè)務(wù)的算力需求,“肥水不流外人田”,商湯絕影是一個(gè)絕佳的實(shí)驗(yàn)藍(lán)本,有足夠多的算力,也有為了適配上駕駛能力的多模態(tài)場(chǎng)景案例,能夠給大模型本身回饋更多運(yùn)行建議。如其展示圖片所示,商湯絕影算力超12000PFFLOPS ,剩下的主機(jī)廠和 Tier1 大多都在 1500PFFLOPS 以下。

AI 算力中心的建設(shè)作為一個(gè)“重”項(xiàng)目,日正益被車企重視。2021 年,特斯拉展示了自己的有 5670塊GPU的超級(jí)計(jì)算機(jī)群,算力可達(dá)21.8 EFLOPS,兩年前,小鵬和阿里云合作,在烏蘭察布建立“扶搖”超算中心,算力可達(dá)600PFLOPS,為當(dāng)時(shí)中國(guó)最大。2023 年中旬,理想和火山引擎合作,在山西建立自己的超算中心,算力可達(dá)750 PFLOPS。“樹大好乘涼”,國(guó)內(nèi)主流新能源主機(jī)廠都選擇了與頭部云供應(yīng)商合作,而商湯本身就可以算作“一顆大樹”,讓一個(gè)算力充沛的人工智能公司來(lái)做智駕,或許有不一樣的效果。

AI 發(fā)展,萬(wàn)物興。商湯 CEO徐立表示:“商湯生成式AI業(yè)務(wù)的增長(zhǎng),得益于各行各業(yè)對(duì)大模型的訓(xùn)練和推理的廣泛需求,這預(yù)示著中國(guó)硬科技投資的新周期正式開啟。商湯通過(guò)在各業(yè)務(wù)層面深入融合生成式AI能力,正在贏得新客戶,并推動(dòng)效率和生產(chǎn)力的全面提升。”根據(jù)財(cái)報(bào)顯示,2023 年商湯AI業(yè)務(wù)的營(yíng)收已經(jīng)占比35%。未來(lái),商湯會(huì)進(jìn)一步思考大模型給各項(xiàng)業(yè)務(wù)的賦能。比如絕影,就需要跑通大模型和智駕之間的閉環(huán),讓汽車搜集的信息反饋給算力中心,再創(chuàng)造更高效的技術(shù)解決方案,從而為更多品牌定制化智駕服務(wù)。

商湯各項(xiàng)業(yè)務(wù)營(yíng)收情況當(dāng)然,硬件基礎(chǔ)全部拉滿也并不和智能化方案的成功掛鉤,智能化供應(yīng)商最重要的還是尋找車企買單。北京車展上,商湯官宣了與哪吒的深度合作,據(jù)悉與算力強(qiáng)關(guān)聯(lián),商湯絕影為哪吒打造一塊堅(jiān)實(shí)的算力底座。而在智艙應(yīng)用層面,日日新大模型也將助力小米 SU7 艙內(nèi)的小愛同學(xué)。如此來(lái)看,布局多年,商湯在智能領(lǐng)域的布局正在慢慢發(fā)芽。當(dāng)然,能否經(jīng)歷時(shí)間的考驗(yàn),長(zhǎng)成參天大樹,還需要再觀察。

       原文標(biāo)題 : 商湯“造車”,帶來(lái)“真”端到端方案

聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

文章糾錯(cuò)
x
*文字標(biāo)題:
*糾錯(cuò)內(nèi)容:
聯(lián)系郵箱:
*驗(yàn) 證 碼:

粵公網(wǎng)安備 44030502002758號(hào)