基於影像和點雲融合的三維目標檢測方法

知乎號/公眾號:一點人工一點智慧

不同類型的感測器各有優劣,單一感測器無法實現精確高效的檢測。為此,將具有互補特性的多種感測器融合以增強感知能力,成為新興的研究主題。目前,三維目標檢測領域常用的融合數據有影像和點雲,融合方法有加法或平均數、級聯、集合、專家混合等,融合時機可分為早期、中期和晚期融合,具體如圖1所示。

早期融合主要融合原始或預處理的感測器數據,可充分利用數據的原始資訊,對計算量要求較低,但因為它聯合處理多個數據模態,不夠靈活,若輸入數據擴充,需要重新訓練網路結構。

晚期融合結合不同數據模態網路結構的決策輸出,具有較高的靈活性和模組化,當引入新的感知模態時,只需要單獨訓練結構而不影響其它網路,但計算成本較高,會丟失很多中間特徵。

中期融合是早期融合和晚期融合的折衷,在中間層融合特徵,使網路能學習不同特徵表示,難點在於如何尋找合適的特徵融合時機。

1.jpg

2.jpg

圖1 各種融合方法示意圖

01 單階段方法


為了提升檢測速度,Sindagi 等基於 VoxelNet結構, 提出 MVX-Net(Multimodal Voxel Network),使用混合融合策略,包括早期融合,即點雲投影到影像,及中期特徵融合。

為了融合 RGB 影像和點雲數據資訊,首先利用二維檢測網路提取特徵,MVX-Net網路在ImageNet上進行預訓練,然後對2D目標檢測任務進行微調,編碼語義資訊,作為先驗知識,幫助推斷目標的存在。

針對點雲,通過VoxelNet 提取特徵,融合影像特徵和點雲特徵,得到最終的檢測結果。 MVX-Net受到傳統體素化方法的影響,不可避免地會丟失資訊,可考慮通過映射函數進行體素化,解除對點數的限制,更充分地利用點雲資訊。

Meyer等擴展 LaserNet,採用早期融合策略,提出影像和點雲融合的三維目標檢測方法。 三維數據表示採用 LiDAR 的自然距離視圖,將 LiDAR 點與影像的像素關聯,並將三維點映射到二維影像上,這種映射被用於將資訊從攝像機影像轉換到 LiDAR影像。 然後融合 CNN 提取的特徵,結合 LiDAR 點雲和影像的特徵並傳遞到 LaserNet,得到檢測結果。

02 兩階段方法


不同於單階段融合方法,兩階段多採用中期融合和晚期融合策略,以中期融合為主。

基於2D目標候選框,Xu等提出 PointFusion,是典型的晚期融合結構之一。 PointFusion 首先生成2D檢測框,將點投影到影像平面以選擇相應的點,最後基於ResNet和PointNet,結合影像和點雲特徵,估計三維目標。因為PointFusion將點雲和影像分開處理,使點雲資訊得以最大限度地保留,但其依賴於稠密點雲,當點雲較稀疏時,效果較差。Yoo等[89] 提出3D-CVF(3D Cross-View Spatial FeatureFusion)網路,保證在不丟失資訊的情況下合併兩個異構的功能映射。3D-CVF使用跨視角空間特徵融合策略結合攝像機和 LiDAR 的特徵。王剛等使用特徵金字塔分別處理點雲俯視圖及影像,融合二者的候選區域,選取得分最高的K個候選區域,指導點雲與影像的特徵池化,並使用ROI Align池化操作提升小目標的檢測精度。

中期融合由於能深度融合多模態特徵而被廣泛使用。Chen等提出 MV3D(Multi-view 3D),基於點雲俯視圖生成3D的目標候選框,通過ROI池化將影像和點雲鳥瞰圖、前視圖特徵整合到同一維度進行融合。 但是MV3D特徵圖下取樣會導致小目標實例空間資訊丟失,Ku等提出 AVOD(AggregateView Object Detection),通過自編碼結構在最終特徵圖上取樣到原始大小,解決問題。周曉蕾設計3D GIOU損失函數替換AVOD的損失函數,訓練時根據檢測框與真實框的匹配程度優化損失函數,進一步提升檢測精度。Liang等[93]提出多感測器深度連續融合網路(Deep Continuous Fusion for Multi-sensors, MMF),將影像特徵投影到BEV圖進行回歸,並且通過元素求和組合成 BEV,解決 BEV 和影像特徵融合問題。 Tian 等提出多模態局部特徵的自適應和方位感知融合網路,從影像、鳥瞰圖和點雲聚合局部特徵,實現高精度檢測。

還有一種融合策略是使用影像資訊輔助點雲生成三維候選框,這種融合策略一般以點雲資訊為主,影像資訊只用於提供目標位置或輪廓,劃定目標區域並回饋到點雲數據對應區域,幫助點雲更好地實現回歸任務。Qi等提出F-PointNet,從2D影像區域獲得3D視錐,再基於分割的目標點雲得到位置,並通過PointNet網路平移對齊點,利用RGB-D映射和 Frustum融合特徵,形成三維檢測結果。基於VoteNet,結合影像資訊,Qi等提出ImVoteNet(Image Vote Network),使用深度霍夫投票,通過影像表決推動點雲中的三維目標檢測,利用梯度混合融合二維檢測和三維檢測。黃漫等基於深度補全克服點雲的稀疏性,並根據二維實例分割結果指導點雲實例分割,精確化目標的點雲表示,提升檢測性能。

03 分析小結


目前,學者們已提出很多影像和點雲融合的方法,多模態融合將是未來的研究熱點,數據優勢互補對於三維目標檢測意義重大,但是研究仍不成熟,還沒有非常好的融合策略能夠兼顧各數據模態的優點,以及在有效保留原始資訊的同時實現深層次融合。

大部分融合方法將點雲處理為規則形式與影像特徵融合,不可避免地會丟失點雲的三維資訊,另外很多融合方法不能充分利用影像資訊。 如何儘可能充分利用影像與點雲資訊,並且平衡不同模態的數據品質,仍值得進一步研究。

基於不同數據模態、不同階段的三維目標檢測方法在性能上差距較大,一些典型的三維目標檢測方法在 KITTI 數據集上的性能對比如圖2、 圖3所示。

3.jpg

圖2 KITTI 數據集上的單階段、兩階段典型方法對比

4.jpg

圖3 KITTI 數據集上的不同數據模態典型方法對比

由圖2和圖3可見,單階段的三維目標檢測方法運行速度較快,能較好地滿足實時性要求,但是檢測精度通常不如兩階段的檢測方法。 儘管最新的單階段方法取得較高的檢測精度,但在測試數據集的排行榜上仍然以兩階段方法為主。 但是,由於兩階段方法需要候選框生成操作,運行速度通常較慢。 從最新的結果來看,兼顧準確性與實時性成為三維目標檢測的發展趨勢。

選取如下數據模態典型方法:YOLO3D 、F-PointNet 、3D-SSD 、VoteNet、LSS(Latent Su-pport Surfaces)、PointFusion、Deep Context、COG(Clouds of Oriented Gradients)。 在 SUNRGB-D 數據集上,各方法的床檢測性能對比如表1所示。

5.jpg

表1 不同數據模態方法在床檢測上的性能對比

由表1可知,一些融合影像和點雲的檢測方法的精度低於單獨基於點雲的檢測方法,這與融合利用影像資訊的方式有很大關係,資訊融合不當可能會干擾點雲資訊的利用。 因此,融合時合理處理數據十分重要。 另外,基於影像的方法精度最低,反映深度資訊對於三維目標檢測的重要性。

如何在保證精度的情況下實現實時檢測,在提升精度的情況下兼顧速度,以及充分利用點雲和影像數據的各自優勢, 成為三維目標檢測研究的關注重點。

不同數據模態的三維檢測方法整體對比如表2所示,表中概括各種數據模態的優缺點。

6.jpg

表2 不同數據模態方法的優缺點對比

王亞東, 田永林, 李國強, 王坤峰, 李大字. 基於卷積神經網路的三維目標檢測研究綜述[J]. 模式識別與人工智慧, 2021, 34(12): 1103-1119