無人汽車無法避開沒見過的物體？問題出在訓練pipeline上

2022 年 1 月 19 日
AI

他們提出的目標檢測方法，可以檢測未見過的新物體，相對於Mask R-CNN有了巨大改進。

編譯丨王曄

編輯丨青暮

人類經常會遇到種類新穎的工具、食物或動物，儘管以前從未見過，但人類仍然可以確定這些是新物體。

與人類不同，目前最先進的檢測和分割方法很難識別新型的物體，因為它們是以封閉世界的設定來設計的。它們所受的訓練是定位已知種類（有標記）的物體，而把未知種類（無標記）的物體視為背景。這就導致模型不能夠順利定位新物體和學習一般物體的性質。

最近，來自波士頓大學、加州大學伯克利分校、MIT-IBM Watson AI Lab研究團隊的一項研究，提出了一種檢測和分割新型物體的簡單方法。

原文鏈接：//arxiv.org/pdf/2112.01698v1.pdf

為了應對這一挑戰，研究團隊創建一個數據集，對每張圖片中的每一個物體進行詳盡的標記。然而，要創建這樣的數據集是非常昂貴的。如下圖所示，事實上，許多用於物體檢測和實例分割的公共數據集並沒有完全標註影像中的所有物體。

圖1. 標準的物體檢測器訓練中存在的問題。該例來自COCO，有色框是注釋框，而白色虛線框是潛在的背景區域。許多白色虛線區域實際上定位了物體，但在傳統的物體檢測器訓練中被認為是背景，從而壓制了新物體的目標屬性。

問題背景

未能學習到一般的目標屬性會在許多應用場景中暴露出各種問題。例如具身人工智慧，在機器人、自動駕駛場景中，需要在訓練中定位未見過的物體；自動駕駛系統需要檢測出車輛前方的新型物體以避免交通事故。

此外，零樣本和小樣本檢測必須對訓練期間未標記的物體進行定位。開放世界實例分割旨在定位和分割新的物體，但最先進的模型表現並不理想。

研究團隊發現，導致目前最先進的模型表現不理想的原因在於訓練pipeline，所有與標記的前景物體重疊不多的區域將被視為背景。如圖1所示，雖然背景中有可見但卻未被標記的物體，但模型的訓練pipeline使其不能檢測到這些物體，這也導致模型無法學習一般的目標屬性。

為了解決該問題，Kim等人提出學習候選區域（region proposals ）的定位品質，而不是將它們分為前景與背景。他們的方法是對接近真實標記的object proposals 進行取樣，並學習估計相應的定位品質。雖然緩解了部分問題，但這種方法除了需要仔細設置正/負取樣的重疊閾值外，還有可能將潛在的物體壓制目標屬性。

方法

為了改進開放集的實例分割，研究團隊提出了一個簡單並且強大的學習框架，還有一種新的數據增強方法，稱為 “Learning to Detect Every Thing”（LDET）。為了消除壓制潛在物體目標屬性這一問題，研究團隊使用掩碼標記複製前景物體並將其粘貼到背景影像上。而前景影像是由裁剪過的修補程式調整合成而來的。通過保持較小的裁剪修補程式，使得合成的影像不太可能包含任何隱藏物體。

然而，由於背景是合成影像創建而來的，這就使其看起來與真實影像有很大的不同，例如，背景可能僅由低頻內容組成。因此，在這種影像上訓練出來的檢測器幾乎表現都不是很好。

為了克服這一限制，研究團隊將訓練分成兩部分：

1）用合成影像訓練背景和前景區域分類和定位頭（classification and localization heads）；2）用真實影像學習掩碼頭（mask head）。

圖2. 本文的增補策略是通過提高小區域的比例作為背景來創建沒有潛在物體的影像。

圖3. 原始輸入（左）和合成影像（右）。用顏色標示了掩碼區域，使用小區域作為背景，避免了背景中會隱藏物體。在某些情況下，背景修補程式恰好可以定位前景物體（左欄第二行）。要注意的是，這種情況很少見，可以看出修補程式被明顯放大了。

在訓練分類頭（classification head）時，由於潛在物體在合成影像時就已經被移除了，因此將潛在物體視為背景的幾率變得很小。此外，掩碼頭是為在真實影像中分割實例而訓練的，因此主幹系統學習了一般表徵，能夠分離真實影像中的前景和背景區域。

也許這看起來只是一個小變化，但LDET在開放世界的實例分割和檢測方面的表現非常顯著。

在COCO上，在VOC類別上訓練的LDET評估非VOC類別時，平均召回率提高了14.1點。令人驚訝的是，LDET在檢測新物體方面有明顯提高，而且不需要額外的標記，例如，在COCO中只對VOC類別（20類）進行訓練的LDET在評估UVO上的平均召回率時，超過了對所有COCO類別（80類）訓練的Mask R-CNN。如圖2所示，LDET可以生成精確的object proposals，也可以覆蓋場景中的許多物體。

圖4. 在開放世界中進行實例分割，Mask R-CNN（上圖）比本文所研究的方法（下圖）所檢測到的物體要少。在此任務中，在不考慮訓練種類的情況下，模型必須對影像中的所有物體進行定位並對其分割。圖中的兩個檢測器都是在COCO上訓練，並在UVO上測試的。在新的數據增補方法和訓練方案的幫助下，本文的檢測器準確地定位出許多在COCO中沒有被標記的物體。

圖5. 訓練流程。給定一個原始輸入影像和合成影像，根據在原始影像上計算的掩碼損失和分類，以及在合成影像上的回歸損失來訓練檢測器。

本文的貢獻總結如下：

提出了一個簡單的框架——LDET，該框架由用於開放世界實例分割的新數據增補和解耦訓練組成。
證明了本文的數據增補和解耦訓練對在開放世界實例分割中實現良好的性能至關重要。
LDET在所有設置中都優於最先進的方法，包括COCO的跨類別設置和COCO-to-UVO和Cityscape-to-Mapillary的跨數據集設置。

實驗結果

研究團隊在開放世界實例分割的跨類別和跨數據集上評估了LDET。跨類別設置是基於COCO數據集，將標記分為已知和未知兩類，在已知類別上訓練模型，並在未知類別上評估檢測/分割性能。

由於模型可能會處在一個新的環境中並且遇到新的實例，所以跨數據集設置還評估了模型對新數據集的歸納延伸能力。為此，採用COCO或Cityscapes作為訓練源，UVO和Mappilary Vista分別作為測試數據集。在此工作中，平均精度（AP）和平均召回率（AR）作為性能評估標準。評估是以不分等級的方式進行的，除非另有說明。AR和AP是按照COCO評估協議計算的，AP或AR最多有100個檢測值。