SuMa++:基於光學雷達的語義SLAM

  • 2019 年 12 月 6 日
  • 筆記

本文授權轉載自:泡泡機器人SLAM

標題:SuMa++: Efficient LiDAR-based Semantic SLAM

作者:Xieyuanli Chen, Andres Milioto, Emanuele Palazzolo, Philippe Giguere, Jens Behley, Cyrill Stachniss

來源:IROS 2019

編譯:任乾 | 審核:Camel

摘要

可靠的高精度定位和建圖是自動駕駛系統的關鍵環節。除了高精度的幾何資訊以外,地圖中還應該包含語義資訊,為載體的智慧行為提供依據。但在實際環境中,移動物體的存在會使建圖過程變得更加複雜,因為它會污染地圖並影響定位效果。在這篇文章里,我們在基於曲面建圖(surfelbased mapping)傳統方法的基礎上,增加語義資訊的融合以解決上述問題。基於神經網路提取語義資訊,對點雲中所有的點都打上類別標籤,從而在曲面建圖時,得到的是帶有標籤的曲面。通過這種方法,不僅可以濾除動態物體,而且可以使用語義資訊對里程估計進行約束,以提高地圖精度。為了驗證該方法的效果,我們使用KITTI數據集中的高速公路場景進行實驗,結果表明,它的效果要優於傳統的僅使用集合資訊的方法。

主要貢獻

  1. 對點雲進行語義分割,根據語義資訊識別動態物體,並在地圖中去除。
  2. 把帶有語義標籤的物體進行數據關聯,和幾何資訊一起建立約束關係,從而提高建圖精度。

主要演算法

1、整體思路

本論文所提出的整體網路結構如圖1所示,從圖中我們可以看出該演算法的主要流程:

1)通過網路對點雲進行語義分割

2)使用漫水填充(flood-fill)方法消除錯誤的類別標籤

3)使用濾波器進行動態物體檢測,並移除動態物體

4)建立帶語義資訊約束的ICP模型,優化里程精度

圖1 網路整體結構

2、語義分割

語義分割使用的是RangeNet++方法,它的主要內容在另一篇論文里,該論文並沒有對這個方法進行太多的改進,下圖是RangeNet++的網路結構圖

圖2 RangeNet++網路結構圖

3、漫水填充(flood-fill)

由於網路對點雲進行的語義分割必然包含正確分類和錯誤分類,而這裡面的錯誤會對後續環節產生不好的影響,因此有必要對其進行消除。這一環節的主要流程如下圖所示。

圖3 flood-fill方法示意圖

上圖中左側是右側圖中虛線框方法的部分,先對(a)中的錯誤識別結果進行剔除,得到(b),然後利用周圍的標籤點雲對他進行填充,得到(c)。最後(d)中顯示的是(c)對應的深度圖。

4、移除動態物體

動態物體的識別是根據物體在同一位置出現的概率實現的。具體來講,就是說如果在這一幀中,某個位置出現了物體,在下一幀中,它還在,如果連續很多幀它都出現在同一個位置,那麼它就是靜止的,反之,在每一幀中檢測到的位置都發生變化,那麼它就是移動的。當然,此處位置指的是地圖中的位置,而不是相對於當前幀點雲的位置。上面是為了方便理解採用的通俗的解釋,實際演算法實現是用下面的公式

這個公式就是用來計算概率的。如果有對cartographer比較熟悉的讀者,會發現這個公式其實和cartographer移除動態物體的公式很像,其實他們的核心思想確實是一樣的。

5、基於語義資訊的ICP

我們知道ICP對兩幀點雲匹配其實就是讓兩幀點雲對應點的距離達到最小,越小說明位姿估計的越准。但它僅使用幾何資訊,魯棒性不是很好。此處作者為了改進這一問題,把語義資訊也加入了ICP的數據關聯當中,每一個物體對應一個關聯關係,進行位姿估計時,除了點雲要盡量接近,帶語義標籤的各個物體也要盡量接近。

實驗

作者在KITTI數據集上進行了測試,而且專門挑的移動物體特別多的路段,實際效果如下圖所示。

圖4 對比效果圖

在上圖中,(c)是真實的環境,這裡的圖片只是為了向讀者展示環境里有什麼,演算法並沒有用到圖片資訊。(a)和(b)分別是不結合語義資訊和結合語義資訊建立的地圖,從圖中明顯可以看出,不使用語義資訊時,周圍的車輛造成的拖尾現象就特別嚴重。但我們同樣也發現了另一個現象,就是在考慮語義資訊以後,雖然沒有拖尾,但是車輛仍然在裡面,也就是說如果建圖的時候有堵車,那麼公路的地圖中仍然會有車輛,而這對地圖來講也是不友好的。因此,不僅需要移除動的物體,而且有必要移除一些可能動的物體。

結論

本文提出了一種基於語義資訊的雷射SLAM系統,通過語義分割,識別出周圍環境中的物體,以物體為單位,構建和帶有語義約束的ICP模型,提高了定位的穩定性,同時對動態物體進行了識別並剔除,提高了地圖的品質。

Abstract

Reliable and accurate localization and mapping are key components of most autonomous systems. Besides geometric information about the mapped environment, the semantics plays an important role to enable intelligent navigation behaviors. In most realistic environments, this task is particularly complicated due to dynamics caused by moving objects, which can corrupt the mapping step or derail localization. In this paper, we propose an extension of a recently published surfelbased mapping approach exploiting three-dimensional laser range scans by integrating semantic information to facilitate the mapping process. The semantic information is efficiently extracted by a fully convolutional neural network and rendered on a spherical projection of the laser range data. This computed semantic segmentation results in point-wise labels for the whole scan, allowing us to build a semantically-enriched map with labeled surfels. This semantic map enables us to reliably filter moving objects, but also improve the projective scan matching via semantic constraints. Our experimental evaluation on challenging highways sequences from KITTI dataset with very few static structures and a large amount of moving cars shows the advantage of our semantic SLAM approach in comparison to a purely geometric, state-of-the-art approach.