曠視 | 大且高質量的數據集用於目標檢測

  • 2019 年 12 月 26 日
  • 筆記

導讀

今天,「計算機視覺」給大家介紹一個新的大型目標檢測數據集Objects365,它擁有超過600,000個圖像,365個類別和超過1000萬個高質量的邊界框。由精心設計的三步注釋管道手動標記,它是迄今為止最大的對象檢測數據集合(帶有完整注釋),並為社區創建了更具挑戰性的基準。

摘要先前看

Objects365可用作更好的特徵學習數據集,用於對位置敏感的任務,例如目標檢測和分割。Objects365預訓練模型明顯優於ImageNet預訓練模型:當在COCO上訓練90K / 540K迭代時,AP改善了5.6(42 vs 36.4)/ 2.7(42 vs 39.3)。同時,當達到相同的精度時,可以大大減少微調時間(差異的10倍)。Object365的更好的泛化功能也已在CityPersons,VOC Segmentation和ADE中得到驗證。我們將發佈數據集和所有預先訓練的模型。

01

目標檢測是計算機虛擬環境中的一項基本任務。PASCAL VOC和COCO為目標檢測的快速發展做出了巨大貢獻。從DPM這樣的傳統方法到R-CNN和FPN等基於深度學習的方法,以上兩個數據集用作「黃金」基準,以評估算法並推動研究的進行。今天我們分享的將進一步介紹了一種新的大規模、高質量的目標檢測數據集Objects 365,主要集中在三個方面:規模、質量和泛化。

02

接下來我們來看看幾處亮點:

1

SACLE

It's a Title Here

  • Objects365比現有的目標檢測基準(如PASCAL和COCO)大得多。它包含365個類別、638K圖像和10101K邊框。
  • 將數據集與現有的目標檢測基準進行了比較,並在下表中給出了完整的注釋。對於檢測界來說,它可以作為一個更具挑戰性的基準。

2

QUALITY

It's a Title Here

  • 除了大小之外,在構建數據集時,注釋質量也是非常重要的。為了保證標註的質量,將注釋流水線劃分為三個步驟,從而大大降低了注釋器的作業要求。
  • 除了注釋員外,還包括檢查人員和審查員,以審查注釋的質量。為了減少注釋過程中的歧義,應用了兩個一致性規則。這個注釋管道保證了高效率獲得高質量的注釋。

3

GENERALIZATION

It's a Title Here

  • 從Objects365中學習到的特徵優於諸如目標檢測和語義分割之類的許多定位敏感的任務。傳統上,ImageNet預先訓練的諸如ResNet的Basenets被廣泛地用作目標檢測/分割算法的主幹。
  • 然而,與ImageNet預訓練相關的兩個問題。一方面,在ImageNet分類任務中學習到的特徵不太敏感。另一方面,僅對主幹部分進行預訓練,但頭部部分用隨機權重初始化。

新的Objects365數據集直接解決了上述兩個問題,並為特性學習提供了更好的選擇。如下圖所示,Objects 365預訓練的特性可以顯著優於基於ImageNet,即使是有足夠長的訓練時間(540K迭代)的特性。

此外,利用Objects365特徵,可以在一個數量級的訓練時間內獲得類似的結果。

03

Annotation Pipeline

註解者幾乎不可能記住並注釋所有365個類別。此外,少數圖像應該被拒絕,因為圖標圖像或圖像沒有365個目標類別。在已有的ImageNet和COCO等數據集的激勵下,以及*中對可擴展多類注釋的討論,我們按照以下三個步驟設計了我們的注釋流程。

* Jia Deng, Olga Russakovsky, Jonathan Krause, Michael S Bernstein, Alex Berg, and Li Fei-Fei. Scalable multi-label annotation. In Proceedings of the SIGCHI Conference on Human Factors in Computing Systems, pages 3099–3102. ACM, 2014

第一步執行兩類分類。如果圖像是非標誌性的,或者在11個超級類別中至少包含一個目標實例,那麼它將被傳遞到下一個步驟;在第二步中,包含11個超級類別的圖像級標記將被標記,可以用多個標籤標記圖像;在第三步中,將分配一個注釋器將目標實例標記在一個特定的超級類別中。屬於超級類別的所有目標實例都應與目標名稱一起用邊框標記。

如上圖所示,基於所建議的注釋流程,每個注釋器只需熟悉一個超級類別中的目標類別,而不是所有365個對象類別。這不僅提高了標註效率,而且提高了標註質量。

Classification Rule

它為標籤中的歧義情況定義了明確的優先順序和function優先原則。例如,在上圖左邊,可以將對象視為「龍頭」或「茶壺」。根據我們的分類規則,我們使用function優先原則,在這種情況下,對象將被標記為「TAP」。

Bounding Box Rules

由於註解器的多樣性,對邊框的注釋有時可能不一致。當邊界框存在歧義時,我們定義了以下規則。

注釋器必須覆蓋最大的邊框,這不會導致定義目標類別的模糊性。例如,我們需要將時鐘的裝飾部分包含在上圖左邊圖形中,因為裝飾部分屬於時鐘,不會導致對目標類別的誤解。對於上圖中的右邊圖形,注釋器需要標記小的邊界框,因為時鐘的外部區域將導致另一個類別為「塔」。

Statistics

Quality

為了驗證Objects 365數據集的質量,三個訓練有素的注釋者被要求對200個隨機選擇的圖像進行標記。總共有3250個邊框,基於注釋器的細化。92%的實例在原始注釋中進行注釋。注釋回憶與CoCO和OpenImage的比較見下表。

對於注釋的精度,如果目標類別錯誤或注釋邊界框不準確,則考慮假正。Objects365的精度明顯高於COCO,分別為91.7%和71.9%。

04

實驗結果

Results of the baseline algorithms on the Objects365 dataset

Diagnosis results on Objects365 and COCO

A comparison of different learning rate strategies for fine- tuning on the COCO benchmark

Generalization ability of general object detection results on the COCO dataset

以下是一些列實驗驗證結果:

An illustration of the results on the Objects365 dataset

Generalization ability of object detection results on the PASCAL VOC dataset. The results are implemented based on FPN with Resnet50 backbone

Generalization ability of semantic segmentation results on the PASCAL VOC dataset. The results are implemented based on PSPNet with Resnet50 backbone

Comparison of the training time for the COCO general detection task. The algorithm is implemented based on the FPN with the Resnet50 backbone. Iterations denotes the number of iterations for the COCO training.

Comparison of the pretraining backbone only against pretraining both the backbone and head on the COCO benchmark. The results are implemented based on FPN with Resnet50 back- bone. 「Iters」 denotes the number of iterations for the COCO training.

END