URPC 2019 水下目標檢測競賽冠軍方案:多影像融合增強

  • 2020 年 2 月 12 日
  • 筆記

作者 | Bbuf

編輯 | 楊曉凡

下面要介紹的論文發於2019年12月,題為「ROIMIX: PROPOSAL-FUSION AMONG MULTIPLE IMAGESFOR UNDERWATER OBJECT DETECTION」。

  • axriv地址為:https://arxiv.org/abs/1911.03029

近年來,通用的目標檢測演算法已經證明了其卓越的性能。然而,關於水下目標檢測的話題卻很少被研究。和一般的數據集相比,水下影像通常具有色偏和低對比度的特點,並且沉澱物也會導致水下影像模糊。另外,由於水下動物的生活習性,它們通常在影像上挨得很近。為了解決這些問題,本論文的工作是研究增強策略以模擬重疊,遮擋和模糊的目標,並構建一個可以有更好的泛化能力的模型。論文提出了一種稱為ROIMIX的增強方法,該方法可以表徵影像之間的相互作用。之前的影像增強方法都是在單張影像上運行,而ROIMIX是應用於多個影像以創建增強後的訓練樣本數據。實驗結果表明,此方法在PASCAL VOC數據集和URPC數據集上均提高了雙階段目標檢測器的性能。

研究背景

很多目標檢測器在通用數據集如PACCAL VOC,MSCOCO上實現了比較好的性能。然而,水下環境更加複雜並且由於光照影響導致水下影像往往存在對比度低,紋理失真和光照不均勻的特點,這導致檢測更加困難。

Figure1(a)展示了密集分布的生物,它們彼此覆蓋,並且因為一些沉澱物變得模糊。水下機器人檢測比賽(URPC)提供了有挑戰性的水下目標檢測數據集,該數據集包含大量重疊,遮擋和模糊的水下生物。現有的數據增強方法對重疊,遮擋和模糊目標還沒有進行很好的研究。如果檢測模型僅僅適應訓練數據,它將缺乏泛化能力,無法應對複雜的水下環境。

因此,論文提出通過在多個影像之間混合候選區域來模擬目標的重疊,遮擋和模糊。從理論上分析,遵循經驗風險最小化原則(ERM),深度模型致力於最小化訓練數據上的平均誤差,但是它們有過擬合的風險。具體來說,ERM指導深層模型記憶訓練數據,而不是從中概況。同時,這些模型容易受到對抗樣本的攻擊。數據增強被用來緩解過擬合問題,根據最小風險(VRM)原則,通過增強策略在類似於訓練數據的樣本上對模型進行了優化。在影像分類領域,平移和翻轉是增強訓練數據量的常用策略。

諸如Mixup,CutMix之類的方法致力於創造更好的訓練數據。本文提出了一種稱為RoIMix的數據增強演算法,可以提高模型對重疊,遮擋和模糊目標的檢測能力。這個方法被用於雙階段檢測器如Faster-RCNN上,和之前在單個物體上進行數據增強的方法相比,ROIMIX更注重影像之間的交互。直接在目標檢測中應用像Mixup這樣的影像級融合會導致來自不同影像的區域建議框未對齊,如Figure1(b)所示。

為了準確模擬重疊,遮擋和模糊的情況,論文執行了候選框級別融合。用這種方式,此方法在Pascal VOC和URPC上取得了出色的目標檢測性能,並在URPC 2019水下目標檢測競賽上奪冠。

相關工作 數據增強

數據增強是訓練深度學習模型的關鍵策略。在影像分類領域,常用的數據增強策略包括旋轉,平移或翻轉。Zhang等提出將兩個隨機訓練影像混合以產生鄰近訓練數據,作為一種正則化方法。區域刪除方法如Cutout會從輸入中隨機刪除一個區域,這有助於模型關注目標最有區別的部分,但是這也可能會導致資訊丟失。

此外,更加先進的CutMix在訓練數據集之間剪切和粘貼圖片區域,從而極大的提高了模型對抗輸入破壞的魯棒性。對於目標檢測,通常使用多種增強策略如光照擾動,影像鏡像和多尺度訓練。

除此之外,基於CutMix的預訓練模型可以在Pascal VOC上實現性能提升,但它並不是專門為目標檢測器設計的。本文充分考慮了基於區域定位的目標檢測器的特性,並提出了一種新的數據增強方法。

Faster-RCNN及其變體

Faster-RCNN是雙階段目標檢測器發展史上的里程碑。它由三個模組組成:一個負責提取特徵的骨幹網路如AlexNet,VGG,ResNet和RPN等,一個在特徵圖上生成候選框集合的全卷積網路,一個對候選框區域進行分類回歸的網路。

注意,在區域分類和位置回歸步驟中是沒有共享計算的。而R-FCN提取了空間感知的區域特徵,並在分類回歸階段移除了全連接層來共享計算而不會降低性能。Faster-RCNN的另外一個問題是它使用最後一層特徵圖進行檢測,對小目標的檢測能力比較差。

因此Lin等提出了特徵金字塔網路FPN,它結合了低層特徵可以更好的最小目標做預測。本文的方法具有通用性,可以應用於各種雙階段目標檢測器。

方法

如Figure2所示,本文提出的方法在RPN和ROI分類器之間應用。使用RPN產生ROI,並以隨機的比例混合它們。該比例是根據Beta分布產生的,然後,使用混合樣本來訓練模型。下面開始詳細的描述ROIMIX演算法並討論其背後的原理。

演算法

xin R^{Htimes W times C} 和

y 代表一個候選框和它的標籤。ROIMIX旨在混合兩個從多個影像中產生的隨機

RIO(x_i,y_i) 和

(x_i,y_i) 來產生新的候選框

(tilde{x}, tilde{y}) ,ROIs的大小通常不同,所以我們需要將

x_j 縮放到和

x_{i cdot} 大小完全一致。產生的訓練數據

(tilde{x}, tilde{y})被用來直接訓練檢測模型。混合操作的公式定義如下:

tilde{x} = lambda' x_i + (1 – lambda ') x_i, ~~~~tilde{y} =y_i

其中

lambda' 是兩個候選框的混合係數。不像Mixup演算法那樣直接從一個參數為

alpha 的Beta分布

B

中直接取樣

lambda ,

lambda = B(a,a)

這裡給第一個ROI區域

x_i 選擇較大係數,即:

lambda' = max{(lambda, 1- lambda)}

其中,max代表返回兩個參數中的較大者。原因是我們要使用

y_i 當作混合ROI的標籤。本方法混合了沒有沒有標籤的ROIs,這類似於傳統的數據增強方法。它僅僅影響訓練,並在測試過程中保持模型不變。使用這種方法,就可以獲得模擬重疊的,遮擋的和模糊的目標的新ROIs。Figure3可視化出了這個方法的過程。

最終,使用此方法得到的新ROIs代替了原始的區域建議框。最終通過最小化這些生成樣本的原始損失函數來進行訓練。程式碼級別的資訊在Algorithm1中展示。

Figure3中x1,x2表示了兩個分別包含扇貝和海膽的ROI,而

x_3 表示從訓練數據集中截出的有遮擋的樣本(海膽位於扇貝上),通過ROIMIX,x1和x2被混合為和

x_3 類似的

tilde{x} ,用於模擬遮擋和模糊的情況。

討論

論文通過ROIMIX來模擬目標的重疊,遮擋,以幫助模型隱式的學習更好的密集目標檢測能力。從統計學習理論的角度來看,ROIMIX是兩個候選框之間的一個線性插值結果,決策邊界可能會變得更平滑而不會急劇過度。具體來說,ROIMIX遵循VRM原理而不是ERM原理,從而使得深度學習模型泛化能力更強。遵循ERM原理訓練得模型可以最大程度的減少經驗風險,以幫助模型更好的擬合訓練數據。定義經驗風險

R_{delta} 為:

R_{delta}(f) = frac{1}{n} sum_{i=1}^{n} l(f(x_i), y_i)

其中

f 代表將

x 映射到

y 的非線性函數,

n 代表樣本數,

l 代表損失函數用來衡量

x_i 和

y_i

的距離。ROIMIX遵循VRM規則,並生成訓練數據的鄰近分布。然後就可以用生成的數據

(tilde{x},tilde{y}) 來代替原始的訓練數據

(x_i,y_i) ,並將期望風險

R_v 近似為:

R_v(f) = frac{1}{n} sum_{i=1}^{n} l(f(tilde{x}),tilde{y})

因此訓練過程已經變成最大幅度的減少期望風險

R_v 。在每一個輪次中,ROIMIX都會生成不同的鄰近訓練數據。以這種方式,模型的魯棒性變得更高。

實驗

在URPC 2018上的實驗結果

論文在URPC 2018上對這個方法進行了全面的評估。該數據集包含2901張訓練影像和800張測試影像,涵蓋4個目標類別,包括海參,海膽,扇貝和海星。

論文選擇在ImageNet上預訓練的ResNet-101作為骨幹網路,並從每張影像中提取128個ROI特徵。並對Faster-RCNN使用默認的超參數,評估方法使用平均精度(mAP)。在URPC 2018的實驗中,將Beta分布的超參數a設置為0.1。

實驗結果如Table1所示,從表中可以看到Max操作分別帶來了2.06%和1.8%的Map值提升,這說明了等式(3)的重要性。其次,在比較GT框和ROIs混合的效果時發現,混合ROIs比混合GT對性能的改善貢獻更大。此外,論文還評估了影像之間進行交互的重要性。「SingleRoIMix」指的是在單個影像上選擇和混合ROIs,而論文提出的方法是混合一個批次中多張影像的ROIs。Table1中的第2行和第5行顯示,和單個影像混合相比,在多個影像之間混合ROIs可以提升0.41%Map值。

Figure4可視化了Baseline(Faster-RCNN)和本論文提出的方法的檢測結果。在Figure4(b)中標記了3個紅色框,其中兩個是模糊和重疊的海參,另一個是不完整的扇貝。BaseLine模型無法檢測到三個紅色框中的目標,而論文中的方法可以成功檢測。這說明此方法對模糊,重疊的目標有更好的檢測能力。

在PASCAL VOC上的實驗

論文還在PASCAL VOC數據集(07+12)上評估了此方法的表現。該模型在VOC 2007 Trainval和VOC 2012 Trainval的聯合訓練集上進行了訓練,並在VOC 2007的測試集上進行測試。這個實驗使用和4.1節完全一樣的設置,並根據經驗將Beta分布的超參數a設為0.01。

論文指出,這應該是第一份有關混合樣本數據增強目標檢測的報告。並將此方法的實驗結果和Faster-RCNN作比較來評估ROIMIX的性能。結果如Table2所示。

可以看到,這種方法比BaseLine提高了0.8%個Map值,同時也可以看到ROIMIX在VOC上的提升比URPC上的提升少。一個可能的原因是URPC中存在更多重疊,被遮擋和模糊的對象,這可以通過本文提出的方法解決,因此提升更大。

穩定性和魯棒性

論文分析了ROIMIX對訓練穩定的目標檢測器的影響。並將ROIMIX訓期間的平均精度(mAP)和BaseLine進行了比較,論文在Figure5中可視化了Pascal VOC數據集和URPC數據集的結果。

首先,論文觀察到在兩個訓練集中訓練結束時,ROIMIX的mAP值均比基準線高得多,在mAP達到最高點之後,隨著訓練輪次的增加,BaseLine開始面臨過擬合。

另一方面,ROIMIX方法在Pascal VOC中平穩下降,並且在較大幅度上保持其Map曲線優於BaseLine。在URPC數據集中,ROIMIX在達到mAP的最高點後隨著時間的增加趨於穩定。此外ROIMIX和BaseLine方法在訓練期間最大的mAP差別達到2.04%。結果表明ROIMIX生成的各種鄰近訓練數據可以減小過擬合的風險,提高訓練過程的穩定性。

此外,論文通過應用5種類型的人工雜訊樣本(高斯雜訊,泊松雜訊,鹽雜訊,胡椒雜訊和椒鹽雜訊)來評估模型的魯棒性。

Figure6(a)可視化了帶有胡椒雜訊的樣本。論文使用在ImageNet預訓練的ResNet-101做骨幹網路,其設置與4.1節中的設置相同。然後評估每種類型雜訊樣本使用BaseLine,GTMix和RoIMix得到的結果,並在Figure6(b)中可視化。在這5種類型的雜訊中,ROIMIX和BaseLine之間的最大性能差異為9.05%個mAP值。直方圖表示這種方法對雜訊的魯棒能力更強。

除了人工雜訊,論文還探索了對測試影像應用高斯模糊後來對模糊目標進行檢測的情況。結果如Table3所示,可以看到使用ROIMIX後性能提高了0.7%個mAP。這些實驗進一步說明,ROIMIX具有更好的魯棒性。

結論 這篇論文提出了ROIMIX用於水下目標檢測的方法。這應該是在多幅影像之間進行ROIs融合以生成不同訓練樣本的第一項工作。ROIMIX旨在模擬重疊,遮擋,和模糊的目標,從而幫助模型隱式地學習檢測水下目標的能力。實驗表明,本文提出的方法可以將URPC的性能提高1.18%mAP,將Pascal VOC的性能提高0.8%mAP。此外,ROIMIX具有更高的穩定性和魯棒性。ROIMIX被作者應用在URPC 2019目標檢測大賽中並獲得冠軍。


招 聘

AI 科技評論希望能夠招聘 科技編輯/記者 一名

辦公地點:北京

職務:以參與學術高峰會報道、人物專訪為主

工作內容:

1、參加各種人工智慧學術會議,並做會議內容報道;

2、採訪人工智慧領域學者或研發人員;

3、關注學術領域熱點事件,並及時跟蹤報道。

要求:

1、熱愛人工智慧學術研究內容,擅長與學者或企業工程人員打交道;

2、有一定的理工科背景,對人工智慧技術有所了解者更佳;

3、英語能力強(工作內容涉及大量英文資料);

4、學習能力強,對人工智慧前沿技術有一定的了解,並能夠逐漸形成自己的觀點。

感興趣者,可將簡歷發送到郵箱:[email protected]