侵權(quán)投訴
訂閱
糾錯(cuò)
加入自媒體

被逼墻角的Mobileye,祭出 CAIS 大旗,挑戰(zhàn)端到端大模型智能駕駛

Mobileye 可以算是中外新勢(shì)力智能駕駛的啟蒙老師

特斯拉第一代智能駕駛使用Mobileye芯片和視覺(jué)算法,在 2015款Model S 車型中實(shí)現(xiàn)L2+級(jí)別的Autopilot;中國(guó)新勢(shì)力蔚來(lái)小鵬第一代L2+ 智能駕駛NIO Pilot 和 Xpilot以及第一代L2++ 領(lǐng)航輔助NOP和NGP都是依賴 Mobileye 芯片和視覺(jué)算法方案。而現(xiàn)在,特斯拉走上了硬件和算法自研的端到端,中國(guó)新勢(shì)力高階智能駕駛都擁抱英偉達(dá)了,就連與Mobileye走的最近的吉利極氪也擁抱英偉達(dá)了,都在追逐著算力為王的端到端大模型。

可以看到 Mobileye的季度財(cái)報(bào),2024年已經(jīng)跌回幾年前的水平,但此刻的智能駕駛已成為AI人工智能落地最大的產(chǎn)業(yè)之一,在全球卻是如火如荼的發(fā)展。

而此刻的 Mobileye 算是被逼到墻角了。最近 Mobileye 在其 Driving AI 2024發(fā)布會(huì)上祭出其Compound AI Systems(CAIS)大旗,挑戰(zhàn)大算力下的端到端大模型智能駕駛。CAIS 是今年年初全球人工智能前五的學(xué)術(shù)研究機(jī)構(gòu) -- 伯克利人工智能研究 (BAIR) 實(shí)驗(yàn)室首次提出的“復(fù)合人工智能系統(tǒng)”這一術(shù)語(yǔ),但其實(shí)CAIS在人工智能領(lǐng)域應(yīng)用廣泛,也在蓬勃發(fā)展。

所以本文基于發(fā)布會(huì)信息整理,結(jié)合AI相關(guān)知識(shí)對(duì)Mobileye 的 Compound AI Systems (CAIS )復(fù)合人工智能方案進(jìn)行分享。希望給大家?guī)?lái)一些信息,最后歡迎投票留言討論Mobileye 這個(gè)方案是否能夠奏效?Mobileye的自動(dòng)駕駛信念對(duì)于智能駕駛應(yīng)用的終極未來(lái)形態(tài) Mobileye 表示想要打造一個(gè)真正的自動(dòng)駕駛,它的指標(biāo)是MTBF(Mean time between failures平均故障間隔時(shí)間,也就是多久出現(xiàn)一次故障 )。 Mobileye表示其與汽車制造商的合作中,MTBF 目標(biāo)是 10的7次方小時(shí)的駕駛時(shí)間。對(duì)于公司來(lái)講,需要一個(gè)可持續(xù)的商業(yè)模式,確保達(dá)到目標(biāo)同時(shí)實(shí)現(xiàn)公司的盈利。

所以 Mobileye 將自己的方案和谷歌Waymo以及特斯拉放一起比較:

其中谷歌和Mobileye采用CAIS方案,區(qū)別是谷歌主要依賴激光雷達(dá),Mobileye主要依賴攝像頭,Waymo已經(jīng)證明了實(shí)現(xiàn)了滿足MTBF KPI的自動(dòng)駕駛,但是成本和模塊化不行,地區(qū)泛化能力有待驗(yàn)證。

而特斯拉的端到端純視覺(jué)方案,從成本,模塊化,地區(qū)泛化能力都非常優(yōu)秀。但是滿足自動(dòng)駕駛MTBF KPI卻是一個(gè)大大的問(wèn)號(hào),特斯拉最近的 V12版 FSD 的公開(kāi)數(shù)據(jù)顯示每次關(guān)鍵干預(yù)大約行駛 300 英里,相當(dāng)于 MTBF 大約為 10 小時(shí),與目標(biāo) MTBF 相差 6 個(gè)數(shù)量級(jí)

所以 Mobileye 表示他對(duì)于FSD以及自己方案能否實(shí)現(xiàn)MTBF都打上問(wèn)號(hào),當(dāng)然其實(shí)Mobileye潛臺(tái)詞是自己的L2以及以下的系列能夠?qū)崿F(xiàn)MTBF,所以暗示其 CAIS 能夠?qū)崿F(xiàn)。其實(shí)現(xiàn)有L2以及以下系列它的ODD 也就是可用范圍太小了,特斯拉FSD以及中國(guó)新勢(shì)力的L2++范圍就異常巨大,基本上等同于全部了。按照 Mobileye 的思路,他的 CAIS 現(xiàn)有產(chǎn)品與 Tesla 的端到端方案的FSD進(jìn)行對(duì)比MTBF其實(shí)不公平。

端到端大模型方案的問(wèn)題端到端大模型方案,數(shù)據(jù)的輸入到一個(gè)大模型算法然后輸出最終結(jié)果,對(duì)于自動(dòng)駕駛基本就是從圖像的光子到汽車的控制。前提是,沒(méi)有任何Glue code也就是,在計(jì)算機(jī)編程中,粘合代碼是一種允許組件互操作的代碼,在智能駕駛中你可以理解為沒(méi)有人類規(guī)則的代碼來(lái)影響輸入與輸出。僅憑無(wú)監(jiān)督,不需要標(biāo)注的數(shù)據(jù)訓(xùn)練就可以實(shí)現(xiàn)足夠的MTBF。現(xiàn)實(shí)是,端到端是將Glue code轉(zhuǎn)變到線下,需要人類來(lái)挑選高質(zhì)量正確的數(shù)據(jù)用于訓(xùn)練。如果沒(méi)有的話會(huì)學(xué)習(xí)很多常見(jiàn)但錯(cuò)誤的行為,卻沒(méi)有學(xué)習(xí)到正確但稀少的行為。更可能引發(fā)人工智能 “AV alignment” 價(jià)值對(duì)齊的問(wèn)題。

端到端大模型的輸出結(jié)論很可能不真實(shí),例如以下三個(gè)方面: 

Calculator計(jì)算器 - LLM大語(yǔ)言模型并不是計(jì)算專家,人類通過(guò)句子學(xué)習(xí)語(yǔ)言和概念,大多數(shù)情況下,語(yǔ)義理解都可以通過(guò)這種方式很好地建立起來(lái)。但數(shù)學(xué)的運(yùn)作方式并不完全相同。數(shù)學(xué)或算術(shù)在語(yǔ)言中并不是高度編碼的;诖笳Z(yǔ)言模型的端到端,從數(shù)據(jù)中進(jìn)行端到端學(xué)習(xí)往往會(huì)遺漏重要的抽象概念,因此不能很好地概括和提取結(jié)論。

所以,目前大模型ChatGPT也采用CAIS進(jìn)行調(diào)用計(jì)算器等專門(mén)模型和工具。那 Calculator 和自動(dòng)駕駛什么關(guān)系呢?自動(dòng)駕駛中所有的碰撞安全都需要計(jì)算距離,時(shí)間等來(lái)實(shí)現(xiàn)避障。人工智能的難題,捷徑學(xué)習(xí)(Shortcut learning problem)。捷徑是在標(biāo)準(zhǔn)基準(zhǔn)上表現(xiàn)良好但無(wú)法轉(zhuǎn)移到更具挑戰(zhàn)性的測(cè)試條件(例如現(xiàn)實(shí)世界場(chǎng)景)的決策規(guī)則。打個(gè)比方如果我們用典型環(huán)境中的奶牛圖像(通常是在綠色草地上或草地前)來(lái)訓(xùn)練深度神經(jīng)網(wǎng)絡(luò),那么神經(jīng)網(wǎng)絡(luò)可能無(wú)法識(shí)別奶牛本身的一般外部特征,而只是將綠色與奶牛聯(lián)系起來(lái)。如果基于這種神經(jīng)網(wǎng)絡(luò)的圖像識(shí)別軟件面對(duì)藍(lán)色背景上的奶牛,那么它很可能不會(huì)將其識(shí)別為奶牛。相反,綠色壁紙前的貓可能會(huì)被錯(cuò)誤地識(shí)別為奶牛。

因此,AI 走了捷徑。它沒(méi)有真正開(kāi)發(fā)出識(shí)別圖像的能力,而只是根據(jù)訓(xùn)練數(shù)據(jù)中存在的相關(guān)性學(xué)習(xí)了錯(cuò)誤的因果關(guān)系。對(duì)于自動(dòng)駕駛端到端算法如何保證端到端大模型沒(méi)有進(jìn)行捷徑學(xué)習(xí)是個(gè)難題。即使攝像頭,雷達(dá),激光雷達(dá)多傳感器融合,也就是現(xiàn)在講的前融合,當(dāng)不同的輸入模態(tài)具有不同的樣本復(fù)雜度時(shí),端到端隨機(jī)梯度在利用所有模式的優(yōu)勢(shì)方面存在困難,會(huì)導(dǎo)致計(jì)算時(shí)間過(guò)長(zhǎng)。而 CAIS 可以按每種傳感器對(duì)系統(tǒng)進(jìn)行可分解訓(xùn)練,然后進(jìn)行高級(jí)融合,應(yīng)該就是現(xiàn)在講的后融合,Mobileye 分享到其 Primary-Guardian-Fallback (PGF)融合方式。長(zhǎng)尾問(wèn)題,對(duì)于長(zhǎng)尾問(wèn)題有兩種假設(shè),在樂(lè)觀的情況下,就是類似于長(zhǎng)尾有些事情概率相對(duì)較大,有些非常小,在悲觀的情況下,所有罕見(jiàn)的長(zhǎng)尾問(wèn)題其實(shí)概率都一樣非常小。其實(shí)具體怎么樣誰(shuí)也不知道,但這個(gè)問(wèn)題會(huì)影響自動(dòng)駕駛對(duì)于長(zhǎng)尾問(wèn)題解決的思路。

其實(shí),特斯拉FSD V12已經(jīng)是端到端大模型,按照邏輯大模型積累數(shù)據(jù)越多那么越好,但是根據(jù)Teslafsdtracker的數(shù)據(jù)可以看到,特斯拉的V12之后的版本并沒(méi)有體現(xiàn)這個(gè)觀點(diǎn)。

所以,端到端大模型這種,只需要喂足夠的數(shù)據(jù)那么算法軟件就會(huì)越來(lái)越優(yōu)秀的觀點(diǎn)缺少證據(jù)。Mobileye 的 CAIS 方案

首先,Mobileye擺出了機(jī)器學(xué)習(xí)中需要考慮 Bias 偏差和 Variance 方差的妥協(xié)。Bias 偏差(“近似誤差”),由于學(xué)習(xí)到太多的約束,導(dǎo)致存在約束的盲區(qū),學(xué)習(xí)系統(tǒng)無(wú)法反映現(xiàn)實(shí)的全部豐富性,這個(gè)可以理解為懂得越多其實(shí)yVariance 方差(“泛化誤差”),由于學(xué)習(xí)以及訓(xùn)練的數(shù)據(jù)較少,就直接根據(jù)現(xiàn)有數(shù)據(jù)總結(jié),學(xué)習(xí)系統(tǒng)對(duì)觀察到的數(shù)據(jù)過(guò)度擬合,無(wú)法泛化到看不見(jiàn)的例子。

Mobileye 想要表達(dá)的是,Mobileye 的方案將會(huì)采取合適的數(shù)據(jù)訓(xùn)練,而不是多多益善。

所以Mobileye 給出的 CAIS 方案主要包括:RSS 是我們之前文章《從2022 CES 看Mobileye 自動(dòng)駕駛產(chǎn)品技術(shù)以及戰(zhàn)略(誰(shuí)說(shuō)算力是唯一標(biāo)準(zhǔn))》中講到的“Responsibility-Sensitive Safety” (RSS) 模型,它可以通過(guò)設(shè)立人為的準(zhǔn)則來(lái)解決人工智能“AV alignment” 價(jià)值對(duì)齊的問(wèn)題。感知/規(guī)控/執(zhí)行,分析計(jì)算等抽象層;從感知,算法,融合多方面冗余來(lái)確保實(shí)現(xiàn)MTBF。

其中感知和規(guī)控將采用 Mobileye 極致高效的AI算法和硬件芯片;冗余方面將采用 Mobileye 的 PGF 高階融合。

Mobileye 的 PGF 高階融合是一種將多數(shù)規(guī)則推廣到非二元決策的一般方法,用于冗余傳感器和外部輸入分析之后的信息決策,傳統(tǒng)冗余信息的決策機(jī)制是少數(shù)服從多數(shù)。對(duì)于感知和規(guī)控 Mobileye 宣稱其采用極致高效的AI 算法。基于Transformer 的GPT最開(kāi)始主要來(lái)自于人類語(yǔ)言文字的算法,它可以標(biāo)記 Tokenize 所有的東西,然后利用自動(dòng)回歸生成新的東西,例如在語(yǔ)言中它標(biāo)記所有的單詞,采用自動(dòng)回歸 Auto-regressive 預(yù)測(cè)下一個(gè)單詞的出現(xiàn)概率,再預(yù)測(cè)下一個(gè)單詞出現(xiàn)的概率,最后生成句子或者文字內(nèi)容。

目前 Transformers 的類似算法已經(jīng)在 AI 領(lǐng)域確立了王者地位,感知以及環(huán)境輸入信息被Tokenized,然后Auto-regressive 生產(chǎn)新的數(shù)字信息用于計(jì)算和決策,甚至輸出。所以端到端的方案中,只需要有足夠的數(shù)據(jù),和強(qiáng)大的算力,基本上都能產(chǎn)生貼近真實(shí)答案的token算法組合,差別只是token多與少的問(wèn)題,也就決定算法復(fù)雜和需要算力的多少。

在汽車AI領(lǐng)域里面應(yīng)用廣泛的語(yǔ)音和圖視頻AI,和上面講到的語(yǔ)音機(jī)制一樣類似,所以 Mobileye 的自動(dòng)駕駛算法也一樣采用,不過(guò) Mobileye 表示其優(yōu)化或者靈活的運(yùn)用,對(duì)傳統(tǒng) Transformer 應(yīng)用改良的 STAT: Sparse Typed Attention。目前行業(yè)內(nèi)包括特斯拉的端到端,第一步是用CNN對(duì)每畫(huà)幅的圖片進(jìn)行處理創(chuàng)立整個(gè)算法的Backbone,整個(gè)算法都基于CNN特征進(jìn)行傳遞處理。

Mobileye 發(fā)現(xiàn)這樣的算法需要非常大的算法和算力,例如目前800萬(wàn)的攝像頭,按照7個(gè)攝像頭用作周視,另外目前通用對(duì)攝像頭采樣是1秒鐘采樣10次,然后將這些圖片切割成20*15個(gè)像素進(jìn)行boken編碼,按照Mobileye 的算法這就需要 100Tops,配合大流量數(shù)據(jù)輸入與輸出。所以Mobileye 對(duì)傳統(tǒng) Transformer 應(yīng)用改良的 STAT: Sparse Typed Attention。主要就是對(duì)token進(jìn)行分類,類似于公司組織一樣分部門(mén)和科室。

Mobileye 采用Parallel Auto-Regressive (PAR)的方式,原來(lái)transformer下的tokend 是人人平權(quán),大家都互相交流溝通,現(xiàn)在token分類,只允許同類的領(lǐng)導(dǎo)之間進(jìn)行交流和溝通產(chǎn)生結(jié)論,所以mobileye號(hào)稱實(shí)現(xiàn)比原來(lái)高效100倍。

當(dāng)然,這種算法的缺點(diǎn)和公司組織一樣,創(chuàng)造了更多的層級(jí),不同層級(jí)必須使用不同的設(shè)施和組織方法,所以 Mobileye 在其芯片上采用了5種不同功能和架構(gòu)的內(nèi)核分別處理算法。

MIPS-通用CPUMPC-專門(mén)用于線程級(jí)并行的CPUVMP-超長(zhǎng)指令寬度(VLIW)-單指令多數(shù)據(jù)(SIMD);專為定點(diǎn)算法的數(shù)據(jù)級(jí)并行性而設(shè)計(jì)(例如,將12位原始圖像收斂為一組不同分辨率和色調(diào)圖的8位圖像);基本上,對(duì)整數(shù)向量執(zhí)行操作PMA-粗粒度可重構(gòu)陣列(CGRA);為數(shù)據(jù)級(jí)并行設(shè)計(jì),包括浮點(diǎn)運(yùn)算;基本上,對(duì)浮點(diǎn)數(shù)向量執(zhí)行操作XNN-專注于深度學(xué)習(xí)的固定函數(shù):卷積、矩陣乘法/完全連接和相關(guān)激活后處理計(jì)算:例如CNN、FCN、Transformer的優(yōu)秀處理表現(xiàn)。根據(jù)這些軟硬算法的結(jié)合, Mobileye 表示其最新的 EyeQ6H 雖然只有34 TOPS (int8)是英偉達(dá)Orin x的 1/8 但是跑圖形算法ResNet50的能力卻是英偉達(dá)Orin x的 1/2 ,所以 Mobileye 表示算力并不能夠很好的評(píng)價(jià)芯片的計(jì)算能力。

最后 Mobileye 喊出他的 CAIS 是極致的AI 高效率來(lái)叫板大算力下的端到端。

除此之外,對(duì)于數(shù)據(jù)方面,端到端就是一個(gè)大胖子來(lái)什么吃什么,食量大,但其實(shí)這里會(huì)有問(wèn)題,需要強(qiáng)大的數(shù)據(jù)采集和算力處理,并不高效。所以其實(shí)可以看到特斯拉去年從Luminar購(gòu)買 2,000 臺(tái)激光雷達(dá),Mobileye猜測(cè)大概率是為了創(chuàng)建監(jiān)督訓(xùn)練的地面實(shí)況 (GT) 數(shù)據(jù),而 Mobileye 也在做這個(gè)事情,做這個(gè)事情的難點(diǎn)就是需要標(biāo)注數(shù)據(jù)。Mobileye 表示其采用在大型無(wú)監(jiān)督數(shù)據(jù)上訓(xùn)練基礎(chǔ)模型然后監(jiān)督對(duì)少量標(biāo)簽的微調(diào)的方法來(lái)做地面實(shí)況 (GT) 數(shù)據(jù)。

最后,在商業(yè)方面,Mobileye確保其整套方案模塊化,從而能滿足不同自動(dòng)化需求的高效開(kāi)發(fā),保證發(fā)展有保障,未來(lái)有路徑。Mobileye 的 CAIS 能否挑戰(zhàn)端到端大模型Mobileye 算是在獨(dú)特的方案中堅(jiān)持到底,其方案提供軟硬結(jié)合的一整套方案,這種 CAIS 方案無(wú)疑是高效的,它更講究專用性,根據(jù)行業(yè)的特點(diǎn)進(jìn)行深入分析定制。端到端大模型的智能駕駛應(yīng)該算是通用人工智能的一個(gè)應(yīng)用分支,它的帶領(lǐng)肯定是英偉達(dá)等大算力巨頭,他講究通用性和大算力。

所以,從技術(shù)上各有優(yōu)缺點(diǎn)。

目前國(guó)內(nèi)一大通采用英偉達(dá)芯片的肯定是走端到端大模型的智能駕駛,接下來(lái)各家紛紛構(gòu)建自己芯片體系的例如蔚來(lái),理想,小鵬,momenta大概率不會(huì)擺脫這個(gè)影子,但有可能長(zhǎng)期會(huì)分化;特殊的華為應(yīng)該是走 CAIS 的方案,畢竟軟硬都有,而且能力特強(qiáng),在強(qiáng)大的背景下走出自己的一條路;比較尷尬的是地平線了,今年年初的百人會(huì)上余凱表示“十年以后連L3都不會(huì)真正實(shí)現(xiàn)”其實(shí)這不過(guò)是沒(méi)有找到自己大算力和軟硬定位的嘆息。

最后,那從商務(wù)上來(lái)講,Mobileye 的 CAIS 高階智能駕駛在目前的中國(guó)會(huì)比較難,它太具有唯一性了,在主機(jī)廠主導(dǎo)的供應(yīng)商體系里面唯一性太可怕了,如果 Mobileye 沒(méi)有打通商務(wù)問(wèn)題,可能永遠(yuǎn)留在 L2以及以下的市場(chǎng),無(wú)法分享高階智能駕駛快速發(fā)展的蛋糕。

未經(jīng)準(zhǔn)許嚴(yán)禁轉(zhuǎn)載和摘錄-參考資料:

Driving AI 2024 Navigating the path to autonomous mobility - Mobileye

Learning Token-Based Representation for Image Retrieval - Hui Wu1 , Min Wang2*, Wengang Zhou1,2*, Yang Hu1 , Houqiang Li1,2

從模型到復(fù)合人工智能系統(tǒng)的轉(zhuǎn)變 - Matei Zaharia、Omar Khattab、Lingjiao Chen、Jared Quincy Davis、Heather Miller、Chris Potts、James Zou、Michael Carbin、Jonathan Frankle、Naveen Rao、Ali Ghodsi

       原文標(biāo)題 : 被逼墻角的Mobileye,祭出 CAIS 大旗,挑戰(zhàn)端到端大模型智能駕駛

聲明: 本文由入駐維科號(hào)的作者撰寫(xiě),觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

文章糾錯(cuò)
x
*文字標(biāo)題:
*糾錯(cuò)內(nèi)容:
聯(lián)系郵箱:
*驗(yàn) 證 碼:

粵公網(wǎng)安備 44030502002758號(hào)