CVPR 19系列 | Stereo R-CNN 3D 目標檢測

  • 2019 年 11 月 29 日
  • 筆記

摘要

之前在3D檢測方面的文章層出不窮,也是各個公司無人駕駛或者機器人學部門關注的重點,包含了點雲,點雲影像融合,以及單目3D檢測,但是在雙目視覺方面的貢獻還是比較少,自從3DOP之後。總體來說,影像的檢測距離,影像的density以及context資訊,在3D檢測中是不可或缺的一部分,因此作者在這篇文章中挖掘了雙目視覺做3D檢測的的潛力。

今天給大家分享的文章又是一個新技術:這篇文章通過充分利用立體影像中的稀疏、密集、語義和幾何資訊,提出了一種用於自動駕駛的稱為立體聲R-CNN的三維物體檢測方法。擴展了Faster R-CNN用於立體聲輸入,以同時檢測和關聯左右影像中的對象。通過在立體區域提議網路(RPN)之後添加額外分支以預測稀疏關鍵點,視點和對象維度,其與2D左右框組合以計算粗略的3D對象邊界框。然後,通過使用左右RoI的基於區域的光度對準來恢復精確的3D邊界框。該方法不需要深度輸入和3D位置,但是,效果優於所有現有的完全監督的基於影像的方法。在具有挑戰性的KITTI數據集上的實驗表明,該方法在3D檢測和3D定位任務上的性能優於最先進的基於立體的方法約30%AP。

新網路框架

與單幀檢測器(如Faster R-CNN)相比,Stereo R-CNN可以同時檢測並關聯左右影像的2D邊界框,並進行微小修改。使用權重共享ResNet-101FPN 作為骨幹網路來提取左右影像的一致特徵。,受益於新提出的訓練目標設計,如下圖,沒有額外的數據關聯計算。

整個網路結構分為以下的幾個部分:

  • RPN部分,將左右目的影像通過stereo RPN產生相應的候選,其實就是stereo RPN是在FPN的基礎上,將每個FPN的scale上的feature map的進行concat的結構;
  • Stereo Regression,在RPN之後,通過Roi Align的操作,得到each FPN scale下的left and right Roi features,然後concat相應的特徵,經過全連接層得到目標類別, stereo bounding boxes dimension還有viewpoint angle(下圖所示) 的值;

viewpoint:根據上圖假定物體的朝向是 θ,車中心和camera中心的方位角是β,那麼viewpoint的角度為α = θ+ β,為了避免角度的歧義性,新技術回歸的量還是[ sinα, cosα ]。

  • keypoint的檢測。這裡採用的是類似於mask rcnn的結構進行關鍵點的預測,定義了4個3D semantic keypoint,即車輛底部的3D corner point,同時將這4個點投影到影像,得到4個perspective keypoint,這4個點在3D bbox regression起到一定的作用,我們在下一部分再介紹。在keypoint檢測任務中,利用Roi Align得到的14*14特徵圖,經過卷積和反卷積最後得到6 * 28 * 28的特徵圖,注意到只有keypoint的u坐標會提供2D Box以外的資訊,因此,處於減少計算量的目的,新技術aggregate每一列的特徵得到6 * 28的輸出,其中前4個通道代表4個keypoint被投影到相應的u坐標的概率,後面兩個通道代表是left or right boundary上的keypoint的概率。

3D Box Estimation

通過網路回歸得到的2D box的dimension,viewpoint,還有keypoint,可以通過一定的方式得到3D box的位置,定義3D box的狀態x = [x, y, z, θ]。

上圖,給出了一些稀疏的約束。包含了特徵點的映射過程。這裡也體現了keypoint的用處:

上述公式即為約束方程,因此可以通過高斯牛頓的方法直接求解。

Dense 3D Box Alignment

這裡就回到shenshaojie老師比較熟悉的BA的過程了,由於part 3僅僅只是一個object level的深度,這裡文章利用最小化左右視圖的RGB的值,得到一個更加refine的過程。定義如下的誤差函數:

其中△zi代表第i個像素的深度與相對應的3D box的深度差。整個對齊過程其實相對於深度的直接預測是更加魯棒,因為這種預測方法,避免了全局的depth estimation中的一些invalid的pixel引起的ill problem的問題。

實驗

  • Stereo Recall and Stereo Detection:

Stereo R-CNN旨在同時檢測和關聯左右影像的對象。除了評估左右影像上的2D AR和2D AP之外,還定義了立體聲AR和立體聲AP度量。

Stereo AR和stereo AP度量共同評估2D檢測和關聯性能。如上表所示,stereo R-CNN在單個影像上具有與Faster R-CNN相似的提議回憶和檢測精度,同時在左右影像中產生高品質的數據關聯而無需額外的計算。雖然stereo AR略低於RPN中的左AR,但在R-CNN之後觀察到幾乎相同的左,右和stereo AP,這表明左右影像上的一致檢測性能以及幾乎所有真正的正向盒子。左圖有相應的正陽性右框。還測試了左右特徵融合的兩種策略:元素均值和通道級聯。如上表所示,其通道串聯顯示出更好的性能,因為它保留了所有資訊。

  • 3D Detection and 3D Localization:

如上表使用針對鳥瞰圖(AP bv)和3D框(AP 3d)的平均精度來評估3D檢測和3D定位性能。注意:KITTI 3D檢測基準測試很難用於基於影像的方法,隨著物體距離的增加,3D性能會逐漸降低。

在上圖中可以直觀地觀察到這種現象,儘管該方法實現了子像素視差估計(小於0.5像素),但是由於視差和深度之間的反比關係,隨著物距增加,深度誤差變得更大。對於具有明顯差異的對象,基於嚴格的幾何約束實現高精度的深度估計。這就解釋了為什麼更高的IoU閾值,對象所屬的更容易的制度,與其他方法相比,該方法獲得了更多的改進。

  • Benefits of the Keypoint:

如下表所示,關鍵點的使用通過非平凡邊緣改善了所有難度制度下的AP bv和AP 3D。由於關鍵點除了2D盒級測量之外還為3D盒角提供像素級約束,因此它可確保更準確的本地化性能:

  • Benefits of the Dense Alignment:

該實驗顯示了密集對齊帶來的顯著改進。如上表,評估粗3D盒(無對齊)的3D性能,其中深度資訊是根據盒級視差和2D盒尺寸計算的。即使1像素視差或2D盒子錯誤也會導致遠距離物體的大距離誤差。結果,雖然粗糙的3D盒子在影像上具有預期的精確投影,但它對於3D定位來說不夠準確。

Insight

最後談談文章看完後的一些insights,首先,整個文章將傳統的detection的任務,結合了geometry constraint優化的方式,做到了3D位置的估計,想法其實在不少文章SFM-Learner之類的文章已經有體現過了,不過用在3D 檢測上面還是比較新穎,避免了做雙目匹配估計深度的過程。也屬於SLAM跟深度學習結合的一篇文章,感興趣的朋友可以繼續看看arxiv.org/abs/1802.0552等相關文章。

我個人意義上的不足:首先耗時過程0.28s的inference time,不過可能作者的重點也不在這個方面,特徵的利用上可以更加有效率,在實現上;其次,能不能採用deep 3dbox的方式預測dimension,然後添加入優化項呢?總體來說,是一篇不錯的值得一讀的文章!

論文地址:https://arxiv.org/pdf/1902.09738.pdf