智能駕駛技術演進與未來挑戰(zhàn):從目標物識別到大模型上車
智能駕駛自動駕駛經歷過去幾年的迅猛發(fā)展,技術底層雖然確立人工智能AI賦能發(fā)展的根基,但是方法路徑卻經歷了巨大的變化。
例如,當年的感知數(shù)據(jù)標注量之爭,2022年左右的HD高精地圖之爭,再到2023年的真假無圖開城大戰(zhàn),最后到2024端到端智能駕駛大模型上車。也引發(fā)了巨多的智能駕駛熱詞,數(shù)據(jù)標注,地圖,BEV,Transformer,有無圖智駕,大模型上車等等;剡^頭來看,我們在討論這些東西的時候,僅僅看到的是表面,然后基于表面再添加自己認知去解讀。
但其實智能駕駛終究只是人工智能AI的應用端,他的發(fā)展是跟隨人工智能的發(fā)展落地,所以看智能駕駛的發(fā)展必須緊盯AI的發(fā)展。最近在人工智能領域把控AI三大件中的重要的兩大件的英偉達,在其GTC上分享了英偉達對于智能駕駛架構發(fā)展的理解,本文將基于其理論整理和分析智能駕駛架構的發(fā)展歷史以及趨勢。值得智能汽車產業(yè)內管理,產品,技術人士,投資,科技愛好者了解和學習,把握智能汽車特別是智能駕駛發(fā)展脈絡。智能駕駛技術架構的發(fā)展可以分為四個部分:
AV1.0 - 目標物識別
AV1.x - BEV+Transformer+......
AV2.0 - E2E大模型
AV2.0 - E2E大模型+LVM圖像語言模型
AV1.0 - 目標物識別采用經典的智能駕駛步驟,感知,定位,融合跟蹤,預測,規(guī)劃,執(zhí)行。在智能駕駛開發(fā)中也是嚴格劃定每個模塊的邊界,各司其職。
這時,AI人工智能主要用在目標物識別感知方面,以及少部分預測方面。感知主要是基于視覺的目標物的識別,所以數(shù)據(jù)標注量決定了感知的精準度;預測采用決策樹等算法。規(guī)控算法主要采用經典PID;九渲弥饕壳耙曈X攝像頭感知目標物,所以大家看到的5V(5 vison 5個攝像頭,其中4個是環(huán)視)方案,大都屬于此類。
新勢力第一代智能駕駛都采用這類智能駕駛架構,例如,Tesla 特斯拉以及國內新勢力 NIO 蔚來,Xpeng 小鵬都是采用Mobileye提供感知的方式實現(xiàn),在國內新勢力以及眾多其他推出的第一代高速領航輔助(什么是領航輔助點擊淺談高階智能駕駛-領航輔助的技術與發(fā)展)都是基于此類感知方式配合HD高精地圖實現(xiàn)。但很快隨著智能駕駛功能以及覆蓋ODD的需求不斷擴大,這種分布式模塊的智能駕駛架構,由于模塊復雜,嚴重依賴高精地圖,所以無法規(guī);,慢慢被主流拋棄。
AV1.x - BEV+Transformer+......當國內,在頭痛數(shù)據(jù)標注量,且依然無法破局智能駕駛場景長尾場景時候;在討論怎么破局HD高精地圖的約束等無法規(guī)模化的因子時候;馬斯克的2021 AI day給行業(yè)透露了他技術的關鍵詞:鳥瞰圖(BEV):BEV主要基于車輛360視覺覆蓋的攝像頭,提供了一個從上方俯瞰車輛周圍環(huán)境的視角,它還可以合成多個傳感器(如攝像頭、雷達、激光雷達等)的數(shù)據(jù)來生成一個全面的視圖。這個視圖不僅包括車輛周圍的物體,如其他車輛、行人、障礙物等,還包括它們在三維空間中的位置信息。Transformer模型:Transformer是一種深度學習架構,最初用于自然語言處理(NLP)領域,因其強大的序列處理和關系建模能力而聞名。
在自動駕駛中,Transformer被用來處理BEV數(shù)據(jù),以理解和預測不同物體之間的動態(tài)關系和交互;谶@兩個關鍵技術因子,智能駕駛實現(xiàn)了三維空間感知加上時間維度的4D感知。在智能駕駛系統(tǒng)中,這意味著車輛不僅能夠實時地檢測和跟蹤周圍的物體(3D感知),還能夠預測這些物體在未來一段時間內的狀態(tài)和行為(時間維度)。這種4維感知能力對于自動駕駛汽車在復雜和動態(tài)的交通環(huán)境中進行安全導航至關重要。
2022年特斯拉AI day又帶來了Occupancy占用網格Occupancy可以直接在BEV空間中完成動態(tài)障礙物的3D檢測和靜態(tài)障礙物的識別建模;提供直接在3D空間中感知占用關系,為系統(tǒng)規(guī)劃提供可行駛空間。當然占用網格挺吃算力,國內目前有通過激光雷達等其他傳感器方式實現(xiàn),例如之前文章《遙遙領先的華為智駕硬件以及背后的GOD和RCR算法》講到的GOD。有了對于環(huán)境感知的全面理解,但是交通的另外兩個層面: 其他交通參與者的行動軌跡以及道路之間的拓撲關系成了智能駕駛的難點。
這個時候Live Vector Space Topological Relationships"(實時向量空間拓撲關系)登場了實時向量空間:實時向量空間是指自動駕駛汽車使用傳感器數(shù)據(jù)(如攝像頭、雷達、激光雷達等)實時生成的環(huán)境表示。這些數(shù)據(jù)被轉換成向量形式,每個向量代表環(huán)境中的一個特定對象或特征,例如其他車輛、行人、道路標志或道路邊界。拓撲關系:拓撲關系描述了環(huán)境中對象之間的相對位置和相互關系。在自動駕駛的上下文中,這包括了解車輛與其他車輛、行人以及道路基礎設施之間的空間關系。例如,一個車輛可能在另一個車輛的前面、后面或側面,而這些關系對于規(guī)劃安全行駛路徑至關重要。
這樣,智能駕駛汽車可以實時處理這些拓撲關系,快速做出決策和反應,實時調整其規(guī)劃和控制策略以應對動態(tài)變化。通過理解實時向量空間中的拓撲關系,智能駕駛汽車可以更準確地預測其他道路使用者的行為,從而進行有效的導航和決策制定。通過配合SD普通導航信息,可以決策車輛的路線跟隨。例如,如果一個車輛正在靠近并可能在交叉路口處轉彎,自動駕駛汽車需要預測這一行為并相應地調整速度和行駛路徑。有了環(huán)境的感知以及交通道路的拓撲關系,基本上智能駕駛汽車完成了對World模型的構建,這個時候需要規(guī)控出馬了。Joint Prediction & Planning Network(聯(lián)合預測與規(guī)劃網絡)傳統(tǒng)的自動駕駛系統(tǒng)可能會將感知、預測和規(guī)劃作為分離的模塊來處理。然而,"Joint Prediction & Planning Network" 采用了一種集成的方法,將預測和規(guī)劃結合在一個統(tǒng)一的框架中。
這樣做的好處是能夠更流暢地處理從感知到行動的轉換,并提高系統(tǒng)的整體效率和性能。聯(lián)合預測與規(guī)劃算法是一種基于 Transformer 的架構,通過學習人類駕駛以及強化學習(RL)來實現(xiàn)。當前國內量產的主流智能駕駛架構都或多或少采用以上方法和技術。AV2.0 - E2E大模型隨著生成式人工智能GPT的橫空出世,端到端模型也搬上車了。端到端模型,基本就是融合所有的AI model形成一個輸入駕駛環(huán)境,輸出車控的轉向,剎車加速等信號。
至于它的內部結構,你可以把它當作一個黑盒,它能夠記住你講過的所有場景,所有case以及你告訴他針對以上場景和case的反饋。在實際自動駕駛中它會基于記憶的場景和反饋去實施。這個和當前的 ChatGPT 類似,它只能準確回答他知道的東西,不知道的問題,GPT可能會一本正經的說胡話,但如果自動駕駛汽車沒見過的場景,自動駕駛隨意開,那么就會造成安全事故。所以問題來了,你必須要去喂這個大模型,足夠多的數(shù)據(jù),讓它學會應對所有場景的駕駛。自動駕駛交通信息數(shù)據(jù)獲取有兩種方法:
第一種方法是實際道路采集車采集。
第二種方法是基于實際場景采集的數(shù)據(jù)虛擬場景。自動駕駛端到端算法基于上面的數(shù)據(jù)進行訓練,根據(jù)英偉達的 GTC 自駕駛車輛的演講:
智能駕駛大模型的參數(shù)的大小,1年之后會增加3倍,2年之后會增加7倍,3年之后增加13倍;
智能駕駛大模型訓練的數(shù)據(jù)大小,1年之后會增加4倍,2年之后增加8倍,3年之后增加17倍。
算力當前L2+的模型訓練需要8000塊GPU,如果是基礎的智能駕駛大模型的訓練算力需要24000塊GPU,標準的需要40000塊,最多的要高達80000萬塊。
所以,大模型上車智能駕駛,主要是對于數(shù)據(jù)以及算力的渴求。數(shù)據(jù)以及算力為王。
AV2.0 - E2E大模型+VLM視覺語言模型這或許就是輪回了,輪回到當年基于目標物識別的感知,數(shù)據(jù)標注量。
如何解決?英偉達拋出行業(yè)目前在做的添加 VLM (Vison Language Model) 方法。
視覺語言模型是一種結合了圖像和文本處理能力的機器學習模型,可以理解和解釋圖像與文本之間的關聯(lián),并根據(jù)圖像生成準確、生動的自然語言描述。這種模型通過分析圖像內容和上下文來生成相關的文字描述,為計算機賦予了更接近人類的視覺理解能力。例如我們之前文章《探秘美國加州自動駕駛路試:豪橫競逐、勤奮探索與技術挑戰(zhàn)》中講到的Ghost以及英國的Wayve應該都采用類似的技術,識別某個場景時候,通過視覺語言模型解讀當前的環(huán)境,然后結合語言知識輔助自動駕駛。
打個比方,視覺語言模型識別到當前智能駕駛為學校放學期間,那么自動駕駛自然會明白這個場景需要更加謹慎的駕駛,從而可以更加人性的駕駛。寫在最后 - 端到端大模型智能駕駛的挑戰(zhàn)大模型智能駕駛,也將自動駕駛汽車帶回GPT一樣的困頓:數(shù)據(jù),數(shù)據(jù),算力,算力。但自動駕駛汽車關系到人類的安全,這就更需要大模型實現(xiàn)可靠、安全和高效,基于這些大模型的智能駕駛系統(tǒng),將面臨以下兩個主要挑戰(zhàn):可解釋性和透明度:復雜的機器學習和深度學習模型,這些模型往往被認為是“黑箱”操作,因為它們的決策過程難以解釋和理解。在自動駕駛汽車中,這種不透明性可能導致安全問題,因為當發(fā)生錯誤或事故時,難以確定原因并采取糾正措施。此外,可解釋性對于建立用戶信任、滿足監(jiān)管要求以及在法律糾紛中證明決策過程是合理的也非常關鍵。
資源和計算效率:深度學習模型和算法通常需要大量的計算資源進行訓練和推理。這不僅增加了成本,還可能導致能源消耗和環(huán)境影響的增加。在自動駕駛汽車中,這種資源密集型的計算需求需要通過優(yōu)化算法和硬件設計來解決,以實現(xiàn)高性能的同時保持能效。此外,隨著模型的不斷更新和迭代,如何有效地管理和存儲這些大型模型和相關數(shù)據(jù)也是一個挑戰(zhàn)。但不管如何,人工智能高速發(fā)展下的智能駕駛正在迅猛發(fā)展,發(fā)展以及技術能夠解決所有問題。
*未經準許嚴禁轉載和摘錄-參考資料:
introduce autonomous vehicles - 英偉達
GAIA-1: A Generative World Model for Autonomous Driving - wayve
原文標題 : 智能駕駛技術演進與未來挑戰(zhàn):從目標物識別到大模型上車
請輸入評論內容...
請輸入評論/評論長度6~500個字
圖片新聞
最新活動更多
推薦專題
- IE工程師(汽車智聯(lián)) 惠州碩貝德無線科技股份有限公司
- 現(xiàn)場技術支持工程師(汽車) 易思維(杭州)科技股份有限公司
- 銷售經理(汽車新能源行業(yè)) 廣州瑞松智能科技股份有限公司
- 結構工程師-汽車電子事業(yè)部(J10116) 深圳奧尼電子股份有限公司
- 銷售總監(jiān)-汽車電子方向 深圳市智立方自動化設備股份有限公司
- 項目經理(汽車內飾&汽車電子) 伯恩光學(惠州)有限公司
- 高級軟件工程師 廣東省/深圳市
- 自動化高級工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級銷售經理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術專家 廣東省/江門市
- 封裝工程師 北京市/海淀區(qū)
- 結構工程師 廣東省/深圳市