侵權(quán)投訴
訂閱
糾錯
加入自媒體

自動駕駛:ECCV2020|基于關(guān)鍵點的單目3D目標檢測

論文原文:RTM3D:Real-timeMonocular3DDetectionfromObject

KeypointsforAutonomousDriving

目前已有的一些 3D 檢測器都是將 3D 邊界框到 2D 邊界框的幾何約束作為重要組件。由于 2D 的邊界框只有四條邊,僅能提供四個幾何約束,這就導(dǎo)致 2D 檢測器的一點小錯誤會極大的影響 3D 檢測器的效果。本文的方法通過預(yù)測圖片中物體 3D 邊界框的九個關(guān)鍵點,利用 3D 和 2D 透視圖的幾何關(guān)系恢復(fù) 3D 空間中的尺寸、位置和方向。通過這種方法,即使關(guān)鍵點的估計非常嘈雜,也可以穩(wěn)定地預(yù)測對象的屬性,使我們能夠以較小的架構(gòu)獲得較快的檢測速度。訓(xùn)練的方法僅使用對象的 3D 屬性,而無需外部網(wǎng)絡(luò)或監(jiān)督數(shù)據(jù)

該方法是第一個用于單眼圖像 3D 檢測的實時系統(tǒng),同時達到了 KITTI 基準的最新性能。

論文背景

3D 目標檢測是自動駕駛中場景感知和運動預(yù)測的基本組件,目前的 3D 檢測器都嚴重依賴于 3D 雷達掃描得到的位置信息。但基于雷達的系統(tǒng)非常昂貴而且不利于編碼現(xiàn)在的車輛形狀。而單目相機相對便宜更容易應(yīng)用在現(xiàn)實場景中。本文的研究聚焦于單目 RGB 圖片的 3D 目標檢測。

單目 3D 目標檢測方法大致可以按照訓(xùn)練數(shù)據(jù)類型被分為兩類,一種利用復(fù)雜的特征,例如實例分割、車輛形狀先驗甚至是深度圖在多階段融合模塊中選擇最佳方案,這些額外的特征需要額外的標注工作來訓(xùn)練一些其他的獨立網(wǎng)絡(luò),這會消耗大量的運算資源;另外一類方法僅將 2D 的邊界框和 3D 物體的屬性作為有監(jiān)督數(shù)據(jù),在這種情況下,一個直觀的想法是建立一個深度回歸網(wǎng)絡(luò)以直接預(yù)測對象的 3D 信息,由于搜索空間較大,這可能會導(dǎo)致性能瓶頸。因此最近有一些工作將 3D 盒頂點的幾何約束應(yīng)用于 2D 盒邊緣以細化或直接預(yù)測對象參數(shù)。但是,2D 邊界框的四個邊緣僅對恢復(fù) 3D 邊界框提供了四個約束,而 3D 邊界框的每個頂點可能對應(yīng)于 2D 框中的任何邊緣,這需要 4,096 個相同的計算才能得出一個結(jié)果。同時,當(dāng) 2D 檢測器的預(yù)測甚至有輕微誤差時,強烈依賴 2D 框會導(dǎo)致 3D 檢測性能急劇下降。因此,大多數(shù)這些方法都利用兩階段檢測器來確保 2D 邊界框預(yù)測的準確性,這限制了檢測速度的上限。

本文提出了一個無需依賴 2D 檢測器的一階段單目 3D 檢測器。首先,通過一個單階段全卷積架構(gòu)預(yù)測 9 個 2D 關(guān)鍵點,這些關(guān)鍵點包括 3D 邊界框的 8 個頂點和中心點的投影點,這 9 個關(guān)鍵點在 3D 邊界框上提供了 18 個幾何約束。此外,本文還提出了一個全新的用于關(guān)鍵點檢測的多尺度金字塔,可以通過軟加權(quán)金字塔獲得最終的關(guān)鍵點激活圖。給定 9 個投影點后,下一步是通過對象的位置、尺寸和方向等從這些 3D 點的角度上進行參數(shù)化,使重投影誤差最小。將重投影誤差公式化為 se3 空間中多元方程的形式,可以準確有效地生成檢測結(jié)果。作者討論了不同先驗信息對基于關(guān)鍵點的方法(如尺寸、方向和距離)的影響。獲取此信息的前提條件是不要增加過多的計算,以免影響最終檢測速度。本文對這些先驗?zāi)P瓦M行建模,并提出了一個整體能量函數(shù)以進一步改善 3D 估計。

本文的主要貢獻有以下幾點:
1.將單目 3D 檢測轉(zhuǎn)化為關(guān)鍵點檢測問題,結(jié)合了幾何約束來更準確和高效的生成 3D 物體的屬性。
2.提出了一種新穎的單階段多尺度 3D 關(guān)鍵點檢測網(wǎng)絡(luò),該網(wǎng)絡(luò)可為多尺度物體提供準確的投影點。
3.提出了一個整體能量函數(shù),可以共同優(yōu)化先驗和 3D 對象信息。
4.根據(jù) KITTI 基準進行評估,本文是第一種僅使用圖像的實時 3D 檢測方法,與其他方法在相同的運行時間下對比,具有更高的準確性。

論文模型

關(guān)鍵點檢測網(wǎng)絡(luò)

本文的關(guān)鍵點檢測網(wǎng)絡(luò)將 RGB 圖像當(dāng)作輸入,輸出 3D 檢測框的頂點及中心點,其包括三個組成部分:骨架、關(guān)鍵點特征金字塔以及檢測頭,主要架構(gòu)采用了與 2D 無錨檢測器相似的一階段策略。

為了在速度和準確性之間進行平衡,本文使用兩種不同的結(jié)構(gòu)作為主干:ResNet18 和 DLA-34。所有模型均拍攝單個 RGB 圖像 I∈R^{W×H×3},并以因子 S = 4 對輸入進行降采樣。ResNet-18 和 DLA-34 用于圖像分類網(wǎng)絡(luò),最大降采樣因子為 ×32。我們通過三個雙線性插值和 1×1 卷積層對瓶頸三次進行上采樣。在上采樣層之前連接了相應(yīng)的低級特征圖,同時添加了一個 1×1 卷積層以減小通道尺寸。經(jīng)過三個上采樣層后,通道分別為 256、128、64。

圖像中的關(guān)鍵點在大小上沒有差異。因此,關(guān)鍵點檢測不適合使用特征金字塔網(wǎng)絡(luò)(FPN)。本文提出了一種新的關(guān)鍵點特征金字塔網(wǎng)絡(luò)(KFPN),以檢測點空間中尺度不變的關(guān)鍵點。假設(shè)我們有F個尺度特征圖,我們首先調(diào)整每個大小f的大小,將其統(tǒng)一為最大的 f 的大小。然后通過 softmax 運算生成軟權(quán)重,以表示每個尺度的重要性。通過線性加權(quán)獲得最終的尺度空間得分圖:

檢測頭由三個基本組件和六個可選組件組成,可以任意選擇這些組件以提高 3D 檢測的準確性,而計算量卻很少。受 CenterNet 的啟發(fā),本文將關(guān)鍵點作為連接所有特征的主要中心 由于在截斷的情況下對象的 3D 投影點可能會超出圖像邊界,因此將更適當(dāng)?shù)剡x擇 2D 框的中心點。Heatmap 定義為 M,其中 C 是目標種類的數(shù)量,另一部分是由頂點和中心點投影出的 9 個點 V,對于一個對象的關(guān)鍵點,本文將回歸得到的主中心的局部偏移量 Vc 作為指標。最接近 Vc 坐標的 V 的關(guān)鍵點被作為一個對象的集合。盡管 9 個關(guān)鍵點的 18 個的約束能夠恢復(fù)物體的 3D 信息,但是越多的先驗條件能夠增加更多的約束,中心偏移 M_OS,頂點偏移 V_OS 是 heatmap 中對每個關(guān)鍵點的離散誤差。

3D 目標的維度 D 方差小容易預(yù)測,本文引用基于 Multi-Bin 方法對偏航角 θ 進行回歸。將 θ 的余弦偏移和正弦偏移概率在 1 個 bin 中進行分類,并使用 2 個 bin 生成方向特征圖,同時對 3D 邊框的中心深度Z進行回歸。最終的 loss 如下(各部分 loss 的定義參見原文,在此不再贅述):

3D邊框的估計

得到 9 個特征點 kp、物體尺寸 D、偏航角 θ、中心深度 Z,目標是找出哪一個邊框中心點與 2D 關(guān)鍵點 kp 最匹配,這能夠最小化 3D 關(guān)鍵點和 2D 關(guān)鍵點的投影損失,并將它和其他先驗損失定義為一個非線性最小二乘優(yōu)化問題:

其中 e_cp、e_d、e_r 是相機點、維度先驗、方向先驗的損失,從 heatmap 中提取的置信度表示為:

實驗論文

本文在 KITTI 數(shù)據(jù)集上進行了實驗。

ResNet18 作為 backbone 的時候速度最快,精度已經(jīng)超過大多數(shù)甚至某些雙目方法,但仍弱于 M3D-RPN(目前不利用其它訓(xùn)練數(shù)據(jù)最好的網(wǎng)絡(luò)),當(dāng)采用 DLA-34 時速度仍然比別的方法快,而且精度超過 M3D-RPN。

消融實驗

對維度、方向、距離和關(guān)鍵點偏移四個可選項進行了消融實驗,四個可選項全部使用時得到了最高的準確率。

分析了關(guān)鍵點FPN的作用,

同時發(fā)現(xiàn) 3D 反向投影的 2D 結(jié)果要優(yōu)于直接對 2D 進行預(yù)測。

結(jié)論

本文提出了一種用于自動駕駛場景的單眼 3D 目標檢測方法。將 3D 檢測作為關(guān)鍵點檢測問題,并展示了如何通過使用關(guān)鍵點和幾何約束來恢復(fù) 3D 邊界框。本文提出的用于 3D 檢測的點檢測網(wǎng)絡(luò),可以僅使用圖像輸出 3D 框的關(guān)鍵點和對象的其他先驗信息生成穩(wěn)定且準確的 3D 邊界框,而無需包含獨立網(wǎng)絡(luò)和增加額外標注數(shù)據(jù),同時可實現(xiàn)實時運行速度。

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

文章糾錯
x
*文字標題:
*糾錯內(nèi)容:
聯(lián)系郵箱:
*驗 證 碼:

粵公網(wǎng)安備 44030502002758號