国产孩交videosex精品,碰在线公开超

自動駕駛革命：解密端到端背后的數(shù)據(jù)、算力和AI奇跡

2024-03-06 10:25

作者 |毫末智行數(shù)據(jù)智能科學(xué)家賀翔

編輯 |祥威

最近，特斯拉FSD V12的發(fā)布引發(fā)了業(yè)界對端到端自動駕駛的熱議，業(yè)界紛紛猜測FSD V12的強大能力是如何訓(xùn)練出來的。從馬斯克的測試視頻可以大致歸納一下FSD V12系統(tǒng)的一些核心特征：

·訓(xùn)練數(shù)據(jù)：1000萬段、分布多樣、高質(zhì)量的視頻，數(shù)據(jù)的采集、篩選、質(zhì)量、分布是系統(tǒng)成功的重中之重

·訓(xùn)練方式：采用端到端訓(xùn)練，不再有感知、規(guī)控等模塊

·車端代碼：V11有30萬行代碼來處理各類場景，而V12則非常簡單，不再針對任何場景定制策略，完全依靠數(shù)據(jù)編程

·運行效率：50幀/秒，效率極高

這些特征如此炫酷，引領(lǐng)著自動駕駛技術(shù)風(fēng)向。那么究竟什么是端到端自動駕駛，如何實現(xiàn)端到端自動駕駛呢？筆者作為自動駕駛領(lǐng)域的從業(yè)人員，將從實戰(zhàn)應(yīng)用的角度出發(fā)，探討端到端如何落地。

一、自動駕駛的傳統(tǒng)做法

從第一性原理來講，自動駕駛就是一個序列到序列的映射過程，輸入的是一個傳感器信號序列，可能包括多個攝像頭采集到的視頻、Lidar采集到的點云、以及GPS、IMU等各類信息，輸出的是一個駕駛決策序列，例如可以是駕駛動作序列、也可以輸出軌跡序列再轉(zhuǎn)為操作動作。

這個過程與大部分AI任務(wù)基本一致，這種映射過程就相當(dāng)于一個函數(shù) y = f(x)。但是實現(xiàn)這種函數(shù)往往難度比較大、任務(wù)極其復(fù)雜，對于這種復(fù)雜的任務(wù)，一般可以通過2類方式來解決：

·分治法：將復(fù)雜任務(wù)分解成多個子任務(wù)，逐個解決，再組合起來，相當(dāng)于 y = f(x)*g(x)…

·端到端：直接尋找一個函數(shù)實現(xiàn)y = f(x)

傳統(tǒng)分治法

分治法是將自動駕駛?cè)蝿?wù)進行切分，定義多個子任務(wù)，每個子任務(wù)負(fù)責(zé)解決駕駛過程的某些特定問題，再進行系統(tǒng)集成來完成整個自動駕駛?cè)蝿?wù)。傳統(tǒng)上，這些子任務(wù)包括：

·地圖/定位：自動駕駛的汽車需要知道駕駛環(huán)境的地圖，其包含的信息一般比我們?nèi)粘Ｊ褂玫膶?dǎo)航地圖要多，例如車道數(shù)量、車端邊界、道路曲率、交通路牌、交通信號燈、停止線、道路拓?fù)涞刃畔�。�?dāng)前，有些公司采用厘米級高清地圖，也有些公司采用更加輕量級的地圖，也有很多公司提出了無圖方案。然后，自動駕駛的汽車需要準(zhǔn)確地知道其自身的位置和方向。傳統(tǒng)上有使用全球定位系統(tǒng)(GPS)、慣性測量單元(IMU)的方式，也有結(jié)合感知技術(shù)，進行圖片、Lidar點云匹配的方式來估計自身位置。

·感知/預(yù)測：自動駕駛的汽車需要看懂周圍的駕駛環(huán)境，感知任務(wù)負(fù)責(zé)識別障礙物、車道線、紅綠燈等關(guān)鍵的交通元素。尤其對于動態(tài)障礙物，除了需要實時監(jiān)控并跟蹤其位置，還需要對其未來變化做出預(yù)測，這與人類駕駛汽車是一樣的，需要對未來趨勢做一個預(yù)判，才能采取正確的駕駛決策。這對于在下游任務(wù)的預(yù)測至關(guān)重要。

·規(guī)劃/決策：自動駕駛的汽車需要結(jié)合定位、感知、預(yù)測的結(jié)果，來規(guī)劃未來的行駛路徑，從而避開障礙物保證安全。規(guī)劃過程需要考慮體感、安全、效率等各種維度的因素。傳統(tǒng)的自動駕駛方案一般通過分場景的方式，來定制不同的駕駛決策，將復(fù)雜的世界抽象為少數(shù)幾類典型場景，不同的場景采取不同的駕駛決策。

·控制：最終，我們需要將駕駛決策轉(zhuǎn)為車輛特定的動作來操控車輛。

以百度的apollo為例，整體系統(tǒng)架構(gòu)如圖所示，可見，要完成復(fù)雜的自動駕駛?cè)蝿?wù)，需要先完成大量相對簡單的子任務(wù)，這些子任務(wù)可以先進行獨立開發(fā)測試，然后再將這些子任務(wù)集成到一個系統(tǒng)里進行驗證。這種方式通過把復(fù)雜的任務(wù)切分、簡化、分而治之，大幅度降低了系統(tǒng)開發(fā)難度，同時可以針對每個模塊都的輸入輸出進行白盒化分析，系統(tǒng)具備很好的可解釋性，這對自動駕駛而言至關(guān)重要，一旦發(fā)生事故，必須要進行深入分析，找到原因。

但是，這種方式也有明顯的弊端，例如模塊太多、集成困難、錯誤累加等等，同時由于系統(tǒng)設(shè)計時引入了太多的人為先驗經(jīng)驗，導(dǎo)致自動駕駛能力上限比較低，系統(tǒng)的泛化性比較差，對于沒有見過的場景往往無法處理。

二、「端到端」技術(shù)興起

相比之下，端到端自動駕駛不進行任務(wù)切分，希望直接輸入傳感器數(shù)據(jù)、輸出駕駛決策（動作或者軌跡），從而拋棄傳統(tǒng)自動駕駛里的感知、預(yù)測、規(guī)劃、控制等各類子任務(wù)。這種方式有明顯的優(yōu)勢，例如：

·效果上：不但系統(tǒng)更簡單，還能實現(xiàn)全局最優(yōu)。

·效率上：由于任務(wù)更少、避免了大量重復(fù)處理，可以提高計算效率。

·數(shù)據(jù)收益：不需要大量的人工策略、只需要采集足夠多的優(yōu)質(zhì)駕駛數(shù)據(jù)來訓(xùn)練即可，可以通過規(guī)�；姆绞剑ú粩鄶U展數(shù)據(jù)）來不斷提升系統(tǒng)的能力上限。

一個典型的端到端自動駕駛系統(tǒng)如圖所示：

輸入：大部分自動駕駛汽車都裝載了相機、Lidar、毫米波雷達(dá)等各類傳感器，采集這些傳感器的數(shù)據(jù)，輸入深度學(xué)習(xí)系統(tǒng)即可。

輸出: 可以直接輸出轉(zhuǎn)向角、油門、剎車等控制信號，也可以先輸出軌跡再結(jié)合不同的車輛動力學(xué)模型，將軌跡轉(zhuǎn)為轉(zhuǎn)向角、油門、剎車等控制信號。

可見，端到端自動駕駛系統(tǒng)就像人類的大腦，通過眼睛、耳朵等傳感器接受信息，經(jīng)過大腦處理后，下達(dá)指令給手腳執(zhí)行命令，整個系統(tǒng)簡單的都沒啥可介紹的……。但是這種簡單也隱藏了巨大的風(fēng)險，例如可解釋性很差，無法像傳統(tǒng)自動駕駛?cè)蝿?wù)一樣將中間結(jié)果拿出來進行分析；對數(shù)據(jù)的要求非常高，需要高質(zhì)量的、分布多樣的、海量的訓(xùn)練數(shù)據(jù)，否則AI就會實現(xiàn)垃圾進垃圾出。

與傳統(tǒng)的自動駕駛方式對比可見，同樣的輸入、同樣的輸出，傳統(tǒng)自動駕駛包含多個任務(wù)（多個模塊），但是端到端只有一個任務(wù)。此處容易產(chǎn)生一個誤區(qū)，即認(rèn)為傳統(tǒng)的自動駕駛是多模塊的、端到端自動駕駛是單模塊的，把分模塊與分任務(wù)的概念搞混了。

傳統(tǒng)的自動駕駛是分任務(wù)的，必然是多個模塊。端到端自動駕駛可以用單模塊來實現(xiàn)，當(dāng)然也可以用多模塊來實現(xiàn)，其區(qū)別在于是否端到端訓(xùn)練。分任務(wù)系統(tǒng)是每個任務(wù)獨立訓(xùn)練、獨立優(yōu)化、獨立測評的，而端到端系統(tǒng)是把所有模塊看成一個整體進行端到端訓(xùn)練、端到端測評的。

例如2023年CVPR best paper提出的UniAD就是一種分模塊端到端訓(xùn)練方式，這種方式通過端到端訓(xùn)練避免了多任務(wù)訓(xùn)練的融合難題實現(xiàn)全局最優(yōu)，又保留了分模塊系統(tǒng)的優(yōu)勢、可以拋出中間模塊的結(jié)果進行白盒化分析，反而更具靈活性對部署也更友好，如圖所示：

分任務(wù)的自動駕駛系統(tǒng)更像model centric系統(tǒng)，開發(fā)者通過不斷優(yōu)化各個模型來提升各個任務(wù)的效果。而端到端自動駕駛則更像data centric系統(tǒng)，通過對數(shù)據(jù)的調(diào)優(yōu)來提升系統(tǒng)效果。

早年，由于自動駕駛積累的數(shù)據(jù)還非常少，端到端系統(tǒng)的效果往往比較差。最近幾年，隨著帶高階輔助駕駛功能的量產(chǎn)車大規(guī)模落地，通過海量量產(chǎn)車可以采集到豐富的駕駛數(shù)據(jù)，覆蓋各類場景，再加上最近幾年AI算力的蓬勃發(fā)展，端到端自動駕駛在海量數(shù)據(jù)、海量算力的加持下，取得了突破性進展。

以特斯拉為例，通過遍布全球的幾百萬輛量產(chǎn)車，可以采集到足夠豐富、足夠多樣的數(shù)據(jù)，再從中選出優(yōu)質(zhì)數(shù)據(jù)，在云端使用數(shù)萬張GPU、以及自研的DOJO進行訓(xùn)練和驗證，使得端到端自動駕駛能夠從paper變成product。

到 2023 年初，特斯拉就聲稱已經(jīng)分析了從特斯拉客戶的汽車中收集的 1000 萬個視頻片段（clips），特斯拉判斷完成一個端到端自動駕駛的訓(xùn)練至少需要100萬個、分布多樣、高質(zhì)量的clips才能正常工作。

特斯拉通過分布在全球的幾百萬量產(chǎn)車，基于影子模式，每當(dāng)自動駕駛決策與人類司機不一致時，就會采集并回傳一個clip，已經(jīng)累積了200P以上的數(shù)據(jù)，不管是數(shù)據(jù)規(guī)模、數(shù)據(jù)分布還是數(shù)據(jù)質(zhì)量上都遙遙領(lǐng)先。為了能在云端處理這些數(shù)據(jù)，當(dāng)前特斯拉擁有近10萬張A100，位居全球top5，預(yù)計到今年底會擁有100EFlops的算力，并針對自動駕駛自研了Dojo，在算力上同樣遙遙領(lǐng)先。

在2022年，毫末智行也開始了對端到端自動駕駛以及自動駕駛大模型的探索，走過了一條從看圖說話到完型填空到寫小作文的道路。

最早，毫末將端到端自動駕駛簡單地定義為一個看圖說話任務(wù)，希望輸入一串圖片、輸出一串駕駛決策，這種方式與機器翻譯輸入一串中文輸出一串英文非常類似，所以可以選擇端到端的序列模型，通過對輸入圖片進行編碼，再解碼輸出駕駛決策。

但是訓(xùn)練之后，發(fā)現(xiàn)難以找到足夠的數(shù)據(jù)來訓(xùn)練模型，因為手里采集到的數(shù)據(jù)絕大部分駕駛行為都是雷同的，例如大部分都是直行，能用的數(shù)據(jù)不到2%。雖然項目效果未達(dá)預(yù)期，但是訓(xùn)練過程發(fā)現(xiàn)端到端訓(xùn)練需要消耗大量的算力，于是又開始著手解決算力問題，并且在2022年底跟火山引擎合作落地了業(yè)界領(lǐng)先的智算中心，等2023年大模型爆發(fā)再加上美國的制裁，算力市場已經(jīng)一卡難求了，這也算一個意外收獲。

三、端到端自動駕駛的挑戰(zhàn)

從特斯拉的開發(fā)經(jīng)驗來看，端到端自動駕駛真不是一般的企業(yè)能玩的，其所需的數(shù)據(jù)規(guī)模、算力規(guī)模遠(yuǎn)遠(yuǎn)超出國內(nèi)企業(yè)的承受能力。除了成本高昂，端到端自動駕駛的技術(shù)難度也非常高，想要從實現(xiàn)從paper到product落地，相當(dāng)于跨越從二踢腳到登月的難度。

·數(shù)據(jù)難題

端到端訓(xùn)練首先需要解決數(shù)據(jù)問題。早年自動駕駛企業(yè)大多依賴采集車采集數(shù)據(jù)，這種數(shù)據(jù)是不真實的、分布有偏的、低質(zhì)量的，只能做個demo，難以進行大規(guī)模端到端訓(xùn)練。最近幾年，隨著量產(chǎn)車的規(guī)�；涞�，業(yè)界很多公司都開始轉(zhuǎn)向采用量產(chǎn)車通過影子模式采集數(shù)據(jù)，但這種模式依然面臨艱巨的挑戰(zhàn)。首先是采集策略問題，即如何平衡數(shù)據(jù)的長尾問題（有效性）和數(shù)據(jù)的規(guī)模問題（成本），如果采集策略比較寬松，我們往往發(fā)現(xiàn)采集回來的數(shù)據(jù)大部分是垃圾數(shù)據(jù)，根本沒有使用價值，如果采集策略過于嚴(yán)格，又擔(dān)心丟失大量有價值的數(shù)據(jù)。其次是數(shù)據(jù)的質(zhì)量問題，如何定義數(shù)據(jù)質(zhì)量是個艱巨的產(chǎn)品問題，如何精準(zhǔn)地挑選出高質(zhì)量的數(shù)據(jù)又是一個復(fù)雜的技術(shù)問題。然后是數(shù)據(jù)分布問題，如何從海量clips中提取有效的特征、如何統(tǒng)計數(shù)據(jù)的分布、應(yīng)該考慮哪些維度，都需要大量的工作。對大部分自動駕駛企業(yè)，還會面臨嚴(yán)重的數(shù)據(jù)泛化問題，因為不同的車型傳感器配置差異巨大，采集的數(shù)據(jù)往往難以復(fù)用，而國內(nèi)車企普遍車型眾多，最后很可能是采了一堆數(shù)據(jù)放在那沒法使用，看起來是數(shù)據(jù)資產(chǎn)，其實都是存儲成本。毫不夸張地說，數(shù)據(jù)會占據(jù)端到端自動駕駛開發(fā)中80%以上的研發(fā)成本。

·算力難題

在美國多輪制裁之下，國內(nèi)采購GPU難上加難，大部分企業(yè)手里擁有的算力資源非常有限，擁有超過1000張A100的企業(yè)寥寥無幾，甚至全國加起來都沒有特斯拉一家企業(yè)多。如何在算力受限的情況下，進行端到端自動駕駛的研發(fā)，是一個值得深入討論的問題。

·算法難題

即使有了數(shù)據(jù)、有了算力，如何設(shè)計合適的自動駕駛算法來進行端到端訓(xùn)練，依然沒有統(tǒng)一的答案。業(yè)界做過很多的嘗試，包括模仿學(xué)習(xí)、強化學(xué)習(xí)等等。模仿學(xué)習(xí)是模仿人類專家的行為，從中學(xué)習(xí)最優(yōu)策略，例如可以挑選一批高質(zhì)量的駕駛行為數(shù)據(jù)來訓(xùn)練模型。強化學(xué)習(xí)則是通過與環(huán)境的交互和獎罰不斷試錯進行學(xué)習(xí)，可以設(shè)定一個獎勵機制，例如更少的碰撞、更高的效率等，在仿真環(huán)境里進行大規(guī)模試錯。

·驗證難題

端到端自動駕駛的評估也是一個十分困難的問題。自動駕駛測評分為2類：閉環(huán)評估和開環(huán)評估，主要區(qū)別在于閉環(huán)評估可以接受到反饋信號從而形成反饋閉環(huán)。開環(huán)評估可以對不同的任務(wù)通過輸入輸出來進行評估，例如單獨評估感知、預(yù)測、規(guī)劃的效果，并與真實數(shù)據(jù)或者標(biāo)注數(shù)據(jù)進行對比，傳統(tǒng)的自動駕駛可以通過開環(huán)評估迭代。而端到端自動駕駛則難以進行開環(huán)評估，甚至也有人認(rèn)為開環(huán)評估的端到端自動駕駛根本沒有意義。閉環(huán)評估一般通過在仿真引擎構(gòu)建的虛擬世界里建立反饋閉環(huán)，但是仿真不真是業(yè)界一大難題，很難推廣到現(xiàn)實世界中的各種場景。例如在接近大貨車時，即使自動駕駛能完美地通過，乘客往往也會有嚴(yán)重的恐慌心理，這種心理很難模擬。而如果采用實車閉環(huán)測評，一方面測評成本太高，另一方面危險場景的hard case使用實車測評危險太大。

·可解釋性難題

如前文所述，可解釋性是端到端自動駕駛的一個弱點。尤其是對于單模塊端到端自動駕駛模型，實現(xiàn)可解釋性極為困難，雖然可以將注意力權(quán)重可視化來提供部分解釋性，但可靠性和實用性仍然十分有限，難以對事故、售后定責(zé)等問題給出有效的證據(jù)。對于分模塊的端到端系統(tǒng)，雖然可以將中間結(jié)果拋出以提供更多的信息，但是這種信息往往是神經(jīng)網(wǎng)絡(luò)的隱層特征，跟直觀的、真實的證據(jù)鏈還是有一定的差距，難以跟客戶解釋清楚。

·上車難題

終于在云端完成了端到端自動駕駛的訓(xùn)練了，仿真效果也很好，最后是如何把這套系統(tǒng)搬到車上并且高效的運行。云端系統(tǒng)為了處理數(shù)以百萬計的clips，一般都采用復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)、巨大的網(wǎng)絡(luò)參數(shù)（高達(dá)10億甚至更多），再用成千上萬張A100進行訓(xùn)練。但是車端往往只有非常低的算力、非常低的功耗，卻要求極高的幀率（每秒處理的圖片數(shù)量）、極低的延遲，這導(dǎo)致端到端自動駕駛上車十分困難，只有經(jīng)過大規(guī)模的量化剪枝等提效手段之后才有可能。

這些最難的部分，特斯拉還沒公開談過是如何解決的。今年的特斯拉AI Day，大家可以期待一下特斯拉的端到端如何破解以上難題。在這之前，筆者談一下毫末是如何做的。

四、自動駕駛端到端的探索

為了降低訓(xùn)練難度，毫末考慮將端到端大模型進行拆分，分為2個階段，一個階段解決感知問題（看懂世界），一個階段解決認(rèn)知問題（駕駛決策），這樣做的好處有2個：

1.可以先獨立訓(xùn)練，再進行聯(lián)合finetue，降低訓(xùn)練難度；

2.不同的階段可以采用不同的數(shù)據(jù)，大幅降低數(shù)據(jù)成本。

在感知階段，主要任務(wù)是把視覺信號轉(zhuǎn)為感知結(jié)果，可以利用海量的帶高清視頻的采集數(shù)據(jù)和量產(chǎn)車回傳的各類corner case視頻來訓(xùn)練。而在認(rèn)知階段，則根據(jù)感知結(jié)果來進行駕駛決策，不需要輸入視頻，只需要輸入感知結(jié)果和駕駛行為即可，這種數(shù)據(jù)可以通過量產(chǎn)車進行大規(guī)模定向采集。通過這種拆解，既降低了任務(wù)的難度，又能充分利用不同的數(shù)據(jù)。

對于感知大模型，毫末從第一性原理出發(fā)，認(rèn)為要實現(xiàn)端到端自動駕駛，感知就必須跟人類一樣，同時具備識別二維紋理和三維結(jié)構(gòu)、認(rèn)識萬物這三個條件，并且最好是純視覺的�；谶@樣的原則，我們建立了自監(jiān)督感知大模型，將車載攝像頭的二維視頻數(shù)據(jù)進行編碼，然后通過NeRF渲染來預(yù)測視頻的下一幀圖像，構(gòu)建了4D特征空間。再通過多模態(tài)技術(shù)將視覺信號與文本信號對齊，實現(xiàn)識別萬物。

對于認(rèn)知大模型，輸入的是感知結(jié)果、輸出的是駕駛決策，由于感知結(jié)果和駕駛決策都是結(jié)構(gòu)化文本，其處理的都是文本符號，我們自然而然地想到了引入NLP相關(guān)的技術(shù)。

在2023年之前，BERT模型在互聯(lián)網(wǎng)領(lǐng)域取得了非常成功的應(yīng)用，于是我們嘗試將BERT類的掩碼模型引入自動駕駛認(rèn)知模型，通過量產(chǎn)車回傳海量的<感知結(jié)果、司機動作>數(shù)據(jù)對。這樣輸入歷史10秒的<感知結(jié)果、司機動作>、再用掩碼蓋住未來幾秒的司機駕駛動作，然后讓模型來預(yù)測駕駛動作，如果模型預(yù)測對了，就說明模型學(xué)會了開車，我們稱之為完形填空。

但是訓(xùn)練效果并沒有達(dá)到預(yù)期，分析后發(fā)現(xiàn)，與NLP任務(wù)完全不同，NLP通過mask部分單詞，然后結(jié)合上下文可以把詞猜出來，確實是完形填空。但是自動駕駛場景下，mask歷史動作是毫無意義的，只能mask未來動作，即只有上文沒有下文，這其實是寫作文，大家都知道寫作文的難度比完形填空高太多了。

而且，人類駕駛汽車不僅依賴歷史感知結(jié)果，還更多的依賴對未來的預(yù)判，老司機往往對未來幾秒的交通環(huán)境有非常好的預(yù)判，例如隔壁車道的車會不會突然變道、路邊的行人會不會橫穿馬路等�；谶@種預(yù)判，老司機再采取合理的駕駛動作。這種預(yù)判，從模型上講就是一種生成式模型。于是我們將算法調(diào)整為GPT生成式模型，將歷史感知結(jié)果使用BEV方式表達(dá)出來，再將BEV序列輸入模型，讓模型預(yù)測幾秒鐘之后未來世界可能發(fā)生的變化，這樣就構(gòu)建一個自回歸的生成式模型，如下圖所示：

然后，將感知和認(rèn)識進行聯(lián)合訓(xùn)練就可以實現(xiàn)端到端自動駕駛了。但是，我們發(fā)現(xiàn)僅通過這種方式進行訓(xùn)練，想要達(dá)到非常好的駕駛效果，需要的數(shù)據(jù)規(guī)模、算力規(guī)模都極為龐大，我們根本無法承受。

例如，在傳統(tǒng)的分任務(wù)自動駕駛范式下，感知算法識別塑料袋后，可以人為設(shè)計一個塑料袋可以壓過去的駕駛策略，這樣訓(xùn)練成本很低，但是在端到端范式下想要讓自動駕駛識別塑料袋并學(xué)習(xí)到塑料袋是可以壓過去，需要大量數(shù)據(jù)進行訓(xùn)練，成本極高，這也是特斯拉手握數(shù)萬卡的原因之一。

塑料袋、泡沫等軟性材質(zhì)是可以壓過去的、交警的手勢優(yōu)先級是高于紅綠燈的、救護車是要避讓的，這些其實都屬于人類社會的世界知識，這些知識都是人類經(jīng)過長期學(xué)習(xí)之后獲得的。

傳統(tǒng)的基于人工策略的自動駕駛成本很低，就是因為通過人工策略直接把人類社會積累的知識用在了自動駕駛上，省去了訓(xùn)練成本。但是駕駛知識包羅萬象，如果要基于人類知識為世間萬物定制各類策略，也是一件不可能的事情。

那如何既能利用人類社會沉淀的知識，又能降低端到端自動駕駛的訓(xùn)練成本呢？考慮到大語言模型中壓縮了幾乎全人類的知識，如果能將跟駕駛決策相關(guān)的知識提取出來，應(yīng)該能大幅度降低訓(xùn)練成本。

于是，毫末在端到端自動駕駛中又引入了大語言模型，通過感知大模型識別萬物后，將這些信息輸入LLM，通過LLM來提取世界知識，并作為輔助特征來指導(dǎo)駕駛決策。如圖所示，這個系統(tǒng)極為復(fù)雜，算力消耗非常大，目前還只能在云端運行，未來幾年將加快向車端的落地。

五、未來趨勢

過去一年，大語言模型的發(fā)展思路給端到端自動駕駛很多啟發(fā)，在模型、數(shù)據(jù)上都值得借鑒。

·大模型

在自然語言處理領(lǐng)域，Chatgpt作為基礎(chǔ)模型展示了極強的泛化能力。最近，學(xué)術(shù)界的研究在語言-視覺大模型上也取得了突破性進展，這種基礎(chǔ)模型無疑會讓自動駕駛?cè)缁⑻硪怼?/p>

特斯拉、Wayve等公司也提出將World Model作為自動駕駛基礎(chǔ)模型的思路。World model是一種基于視頻來預(yù)測未來世界的模型，例如特斯拉的world model可以根據(jù)prompt給出的動作來做出反饋，并生成未來的世界圖像，而且能保證多視角、時序的一致性。

·借助大語言模型LLM

大語言模型壓縮了人類的大部分知識，當(dāng)然也包括駕駛知識�？梢酝ㄟ^與LLM進行交互，提取駕駛常識。例如傳統(tǒng)的占用網(wǎng)絡(luò)，遇到前方一個大塑料袋時，往往會以為空間被占用，但是基于LLM，我們可以獲取塑料袋的物理知識，從而知道不必躲閃。通過這種方式，相當(dāng)于副駕坐了一位見多識廣的陪練，隨時可以告訴你遇到corner case應(yīng)該如何處理，但是通過語言模型指導(dǎo)自動駕駛依舊風(fēng)險巨大，因為LLM提供的答案幻覺十分嚴(yán)重。

·數(shù)據(jù)生成

端到端自動駕駛可以說是數(shù)據(jù)為王，為了解決長尾數(shù)據(jù)問題，業(yè)界也在嘗試用AIGC技術(shù)構(gòu)造數(shù)據(jù)。面對一個尚未解決的問題，如果現(xiàn)實環(huán)境難以采集到類似的數(shù)據(jù)，例如車禍，可以考慮使用AIGC技術(shù)來定向生成類似場景的數(shù)據(jù)，來快速提升效果。也可以使用仿真引擎來構(gòu)造類似的場景，生成數(shù)據(jù)。

·Zeroshot/fewshot learning

然而，不管數(shù)據(jù)規(guī)模有多大，自動駕駛模型始終都會遇到超出數(shù)據(jù)分布的場景，每次遇到問題都去找數(shù)據(jù)來訓(xùn)模型顯然不夠優(yōu)雅，最好的方式是自動駕駛模型具備足夠的泛化能力，只需要少量樣本，甚至不需要樣本就能解決這種分布之外的場景。大模型的出現(xiàn)，讓這種能力成為可能。

長期來看，縱然各種挑戰(zhàn)仍在，但筆者相信，端到端自動駕駛是未來最有希望實現(xiàn)無人駕駛的途徑之一，大模型將對自動駕駛的技術(shù)發(fā)展產(chǎn)生深度影響。

原文標(biāo)題 : 自動駕駛革命：解密端到端背后的數(shù)據(jù)、算力和AI奇跡