熟妇高潮喷沈阳45熟妇高潮喷,无码视频一区二区三区

自動駕駛：ECCV2020|基于關(guān)鍵點的單目3D目標檢測

2020-09-09 11:44

論文原文：RTM3D：Real－timeMonocular3DDetectionfromObject

KeypointsforAutonomousDriving

目前已有的一些 3D 檢測器都是將 3D 邊界框到 2D 邊界框的幾何約束作為重要組件。由于 2D 的邊界框只有四條邊，僅能提供四個幾何約束，這就導(dǎo)致 2D 檢測器的一點小錯誤會極大的影響 3D 檢測器的效果。本文的方法通過預(yù)測圖片中物體 3D 邊界框的九個關(guān)鍵點，利用 3D 和 2D 透視圖的幾何關(guān)系恢復(fù) 3D 空間中的尺寸、位置和方向。通過這種方法，即使關(guān)鍵點的估計非常嘈雜，也可以穩(wěn)定地預(yù)測對象的屬性，使我們能夠以較小的架構(gòu)獲得較快的檢測速度。訓(xùn)練的方法僅使用對象的 3D 屬性，而無需外部網(wǎng)絡(luò)或監(jiān)督數(shù)據(jù)

該方法是第一個用于單眼圖像 3D 檢測的實時系統(tǒng)，同時達到了 KITTI 基準的最新性能。

論文背景

3D 目標檢測是自動駕駛中場景感知和運動預(yù)測的基本組件，目前的 3D 檢測器都嚴重依賴于 3D 雷達掃描得到的位置信息。但基于雷達的系統(tǒng)非常昂貴而且不利于編碼現(xiàn)在的車輛形狀。而單目相機相對便宜更容易應(yīng)用在現(xiàn)實場景中。本文的研究聚焦于單目 RGB 圖片的 3D 目標檢測。

單目 3D 目標檢測方法大致可以按照訓(xùn)練數(shù)據(jù)類型被分為兩類，一種利用復(fù)雜的特征，例如實例分割、車輛形狀先驗甚至是深度圖在多階段融合模塊中選擇最佳方案，這些額外的特征需要額外的標注工作來訓(xùn)練一些其他的獨立網(wǎng)絡(luò)，這會消耗大量的運算資源；另外一類方法僅將 2D 的邊界框和 3D 物體的屬性作為有監(jiān)督數(shù)據(jù)，在這種情況下，一個直觀的想法是建立一個深度回歸網(wǎng)絡(luò)以直接預(yù)測對象的 3D 信息，由于搜索空間較大，這可能會導(dǎo)致性能瓶頸。因此最近有一些工作將 3D 盒頂點的幾何約束應(yīng)用于 2D 盒邊緣以細化或直接預(yù)測對象參數(shù)。但是，2D 邊界框的四個邊緣僅對恢復(fù) 3D 邊界框提供了四個約束，而 3D 邊界框的每個頂點可能對應(yīng)于 2D 框中的任何邊緣，這需要 4，096 個相同的計算才能得出一個結(jié)果。同時，當(dāng) 2D 檢測器的預(yù)測甚至有輕微誤差時，強烈依賴 2D 框會導(dǎo)致 3D 檢測性能急劇下降。因此，大多數(shù)這些方法都利用兩階段檢測器來確保 2D 邊界框預(yù)測的準確性，這限制了檢測速度的上限。

本文提出了一個無需依賴 2D 檢測器的一階段單目 3D 檢測器。首先，通過一個單階段全卷積架構(gòu)預(yù)測 9 個 2D 關(guān)鍵點，這些關(guān)鍵點包括 3D 邊界框的 8 個頂點和中心點的投影點，這 9 個關(guān)鍵點在 3D 邊界框上提供了 18 個幾何約束。此外，本文還提出了一個全新的用于關(guān)鍵點檢測的多尺度金字塔，可以通過軟加權(quán)金字塔獲得最終的關(guān)鍵點激活圖。給定 9 個投影點后，下一步是通過對象的位置、尺寸和方向等從這些 3D 點的角度上進行參數(shù)化，使重投影誤差最小。將重投影誤差公式化為 se3 空間中多元方程的形式，可以準確有效地生成檢測結(jié)果。作者討論了不同先驗信息對基于關(guān)鍵點的方法（如尺寸、方向和距離）的影響。獲取此信息的前提條件是不要增加過多的計算，以免影響最終檢測速度。本文對這些先驗?zāi)Ｐ瓦M行建模，并提出了一個整體能量函數(shù)以進一步改善 3D 估計。

本文的主要貢獻有以下幾點：
1．將單目 3D 檢測轉(zhuǎn)化為關(guān)鍵點檢測問題，結(jié)合了幾何約束來更準確和高效的生成 3D 物體的屬性。
2．提出了一種新穎的單階段多尺度 3D 關(guān)鍵點檢測網(wǎng)絡(luò)，該網(wǎng)絡(luò)可為多尺度物體提供準確的投影點。
3．提出了一個整體能量函數(shù)，可以共同優(yōu)化先驗和 3D 對象信息。
4．根據(jù) KITTI 基準進行評估，本文是第一種僅使用圖像的實時 3D 檢測方法，與其他方法在相同的運行時間下對比，具有更高的準確性。

論文模型

關(guān)鍵點檢測網(wǎng)絡(luò)

本文的關(guān)鍵點檢測網(wǎng)絡(luò)將 RGB 圖像當(dāng)作輸入，輸出 3D 檢測框的頂點及中心點，其包括三個組成部分：骨架、關(guān)鍵點特征金字塔以及檢測頭，主要架構(gòu)采用了與 2D 無錨檢測器相似的一階段策略。

為了在速度和準確性之間進行平衡，本文使用兩種不同的結(jié)構(gòu)作為主干：ResNet18 和 DLA－34。所有模型均拍攝單個 RGB 圖像 I∈R＾｛W×H×3｝，并以因子 S ＝ 4 對輸入進行降采樣。ResNet－18 和 DLA－34 用于圖像分類網(wǎng)絡(luò)，最大降采樣因子為 ×32。我們通過三個雙線性插值和 1×1 卷積層對瓶頸三次進行上采樣。在上采樣層之前連接了相應(yīng)的低級特征圖，同時添加了一個 1×1 卷積層以減小通道尺寸。經(jīng)過三個上采樣層后，通道分別為 256、128、64。

圖像中的關(guān)鍵點在大小上沒有差異。因此，關(guān)鍵點檢測不適合使用特征金字塔網(wǎng)絡(luò)（FPN）。本文提出了一種新的關(guān)鍵點特征金字塔網(wǎng)絡(luò)（KFPN），以檢測點空間中尺度不變的關(guān)鍵點。假設(shè)我們有F個尺度特征圖，我們首先調(diào)整每個大小f的大小，將其統(tǒng)一為最大的 f 的大小。然后通過 softmax 運算生成軟權(quán)重，以表示每個尺度的重要性。通過線性加權(quán)獲得最終的尺度空間得分圖：

檢測頭由三個基本組件和六個可選組件組成，可以任意選擇這些組件以提高 3D 檢測的準確性，而計算量卻很少。受 CenterNet 的啟發(fā)，本文將關(guān)鍵點作為連接所有特征的主要中心由于在截斷的情況下對象的 3D 投影點可能會超出圖像邊界，因此將更適當(dāng)?shù)剡x擇 2D 框的中心點。Heatmap 定義為 M，其中 C 是目標種類的數(shù)量，另一部分是由頂點和中心點投影出的 9 個點 V，對于一個對象的關(guān)鍵點，本文將回歸得到的主中心的局部偏移量 Vc 作為指標。最接近 Vc 坐標的 V 的關(guān)鍵點被作為一個對象的集合。盡管 9 個關(guān)鍵點的 18 個的約束能夠恢復(fù)物體的 3D 信息，但是越多的先驗條件能夠增加更多的約束，中心偏移 M＿OS，頂點偏移 V＿OS 是 heatmap 中對每個關(guān)鍵點的離散誤差。

3D 目標的維度 D 方差小容易預(yù)測，本文引用基于 Multi－Bin 方法對偏航角 θ 進行回歸。將 θ 的余弦偏移和正弦偏移概率在 1 個 bin 中進行分類，并使用 2 個 bin 生成方向特征圖，同時對 3D 邊框的中心深度Z進行回歸。最終的 loss 如下（各部分 loss 的定義參見原文，在此不再贅述）：

3D邊框的估計

得到 9 個特征點 kp、物體尺寸 D、偏航角 θ、中心深度 Z，目標是找出哪一個邊框中心點與 2D 關(guān)鍵點 kp 最匹配，這能夠最小化 3D 關(guān)鍵點和 2D 關(guān)鍵點的投影損失，并將它和其他先驗損失定義為一個非線性最小二乘優(yōu)化問題：

其中 e＿cp、e＿d、e＿r 是相機點、維度先驗、方向先驗的損失，從 heatmap 中提取的置信度表示為：

實驗論文

本文在 KITTI 數(shù)據(jù)集上進行了實驗。

ResNet18 作為 backbone 的時候速度最快，精度已經(jīng)超過大多數(shù)甚至某些雙目方法，但仍弱于 M3D－RPN（目前不利用其它訓(xùn)練數(shù)據(jù)最好的網(wǎng)絡(luò)），當(dāng)采用 DLA－34 時速度仍然比別的方法快，而且精度超過 M3D－RPN。

消融實驗

對維度、方向、距離和關(guān)鍵點偏移四個可選項進行了消融實驗，四個可選項全部使用時得到了最高的準確率。

分析了關(guān)鍵點FPN的作用，

同時發(fā)現(xiàn) 3D 反向投影的 2D 結(jié)果要優(yōu)于直接對 2D 進行預(yù)測。

結(jié)論

本文提出了一種用于自動駕駛場景的單眼 3D 目標檢測方法。將 3D 檢測作為關(guān)鍵點檢測問題，并展示了如何通過使用關(guān)鍵點和幾何約束來恢復(fù) 3D 邊界框。本文提出的用于 3D 檢測的點檢測網(wǎng)絡(luò)，可以僅使用圖像輸出 3D 框的關(guān)鍵點和對象的其他先驗信息生成穩(wěn)定且準確的 3D 邊界框，而無需包含獨立網(wǎng)絡(luò)和增加額外標注數(shù)據(jù)，同時可實現(xiàn)實時運行速度。