CVPR 2020| 商湯提出大規模多標籤目標檢測新算法

  • 2020 年 5 月 20 日
  • AI
本文介紹的是CVPR2020 Oral論文《Large-Scale Object Detection in the Wild from Imbalanced Multi-Labels》,作者來自商湯搜索與決策團隊與中科院自動化所
者 | 商 湯
論文地址://arxiv.org/pdf/2005.08455.pdf

1

導語
在CVPR 2020上,商湯搜索與決策團隊與中科院自動化所合作,針對超大規模多標籤目標檢測任務,提出了有效的解決方案。該工作以真實世界中的通用檢測任務為背景,分析了主要面臨的痛點,在損失函數和採樣方法上提出了創新,有效地改善了痛點並在量化指標上有顯著提升。

2
背景及分析
在深度學習中,數據始終是至關重要的因素之一。隨着硬件與算法的發展,在學術界和工業界,對數據規模的需求也越來越強。然而在大規模數據的場景下,出現了許多新的挑戰,也使得算法的邊界將產生新的定義。
本文以Open Images數據庫為例來模擬真實世界下的超大規模檢測,該數據庫擁有170萬訓練圖片,1240萬框圖並包含500個目標類別。在該場景下,我們分析了主要面臨的痛點問題:

圖1
1、顯式多標籤問題
與傳統的單標籤目標檢測不同,真實世界下的物體往往具有多種標籤類別,以圖1(a,b)為例,目標可同時具有多種並列的標籤類別,也可同時具有父子繼承關係的多標籤類別。
2、隱式多標籤問題
超大規模數據由於其規模,往往採用機器輔助人工的手段進行標註,在訓練數據中會頻繁出現漏標和混標的情況。以圖1(c,d)為例,部分目標會出現缺失子類標籤的情況,另一些易混淆類別的目標會隨機性地互標。
3、類別的長尾效應
在學術集中,訓練數據的類別一般位置在較均衡的分佈,然而在實際應用中,類別的分佈呈現出嚴重的長尾效應。

3
多標籤問題的解決方案­­­
面對顯示和隱式的多標籤問題,檢測中常用的softmax將導致多標籤之間產生響應值的競爭。這種競爭不僅使得多標籤的預測概率明顯降低,還會導致訓練過程中優化目標的方向錯誤。

反傳梯度為:

其中表示目標的類別響應,代表該目標的positive標籤個數,為positive標籤集合,表示每個類別的二分標籤。
針對以上觀察,本文提出了concurrent-softmax,在訓練和測試過程中,根據目標的多標籤和類別的隱性依賴關係輸出每種類別的概率值。該算法有效地解決了訓練過程中的多標籤優化難點,並改善了預測過程中多標籤的競爭問題。

反傳梯度為:

其中表示在訓練數據中統計的類別相對於類別的共存概率分佈。
表1展示了concurrent-softmax與傳統loss的結果對比,表2展示了concurrent-softmax在訓練和測試時的效果。
表1

表2

 
4
長尾效應的解決方案­­­
長尾效應的主要痛點主要在於部分類別出現頻率過高,部分類別出現頻率極低,天然採樣方法從而導致檢測器對稀少類欠擬合。典型的解決方案是均勻採樣法,即每種類別圖片的採樣頻率一致,然而此舉將導致對稀少類的嚴重過擬合,且高頻類別中大量的訓練數據無法被採樣到,導致高頻類的訓練也不充分。本文提出了混合採樣和混合訓練法以漸進式地逐步改善以上兩個問題。
­­­
首先,我們以天然採樣為基礎,設計了混合採樣方式,其中天然採樣方式下的單類採樣頻率為:

均勻採樣頻率為:

混合採樣頻率則設計為:

其中表示某類別圖片數量,表示平滑參數,定義如下:

該採樣方式能有效的增加稀少類的採樣頻率並緩解過擬合。表3展示了混合採樣方式在性能上的明顯提升,圖2 分別展示了不同平滑稀疏下採樣方式對高頻和低頻類的單類精度影響。
表3

圖2
其次,我們採用混合訓練方式,即用天然採樣方法預訓練模型,並採用混合採樣方式微調模型,保證了高頻類的每個樣本都被採樣過,保證了對高頻類的充分學習。表4展示了我們的方法最終的性能表現。
表4

5
結語­­­
該文章對真實場景下的大規模多標籤目標檢測問題做了較為全面的分析,並提出了有效可靠的解決方案,為未來類似場景下研究提供了一定的經驗和思路。