優Tech分享 | 騰訊優圖在弱監督目標定位的研究及應用

電腦視覺技術讓AI擁有了「眼睛」,而深度學習的出現讓這雙「眼睛」的算力增強,能夠識別並對它看到的影像特徵作出反應並獲取對應資訊。而其中,目標檢測(Object Detection)作為影像理解中的重要一環,適用於包含多個對象的圖片,需要對影像中的目標/物體進行定位和識別分類,從而確認它們的位置和大小,這也是電腦視覺領域的核心問題之一。
全「手工」的強監督目標檢測方法費時且需耗費較大的標註成本,遇到任務變化或演變更是十分不友好,而弱監督學習則有望解決這些這些問題。騰訊優圖實驗室高級研究員noahpan以「弱監督目標定位的研究及應用」為主題,結合騰訊優圖實驗室在弱監督目標定位的研究進展、成果以及相關思考進行了分享。
01
從全監督到弱監督
目標定位的局限性
弱監督目標定位是指僅利用影像層面的類別標籤學習影像中目標的位置,相比於全監督來說,弱監督目標定位可以節約很大的標註成本。相比需要標註影像級別的分類標籤,標註bounding box level的影像標註需要大概10倍的時間。因此,僅利用影像層面的類別標籤去學習目標位置,可以極大程度節約標註成本。

目前弱監督目標定位所關注的焦點更多在於一張圖片包含一個類別,其他常用的解決方案則主要是通過多實例學習,以及通過線下方式得到一些region proposal,通過對refund或是得到region proposal。定位比較高的proposal,需要分配比較好的分類,最終得到定位結果。
現在目標定位方法的兩點局限:
第一,局部響應,只能定位到目標的最具判別資訊的局部區域;
第二,結構的損失,沒有辦法保證能夠很好的學出目標的結構,比如邊緣輪廓。
弱監督目標定位常用的數據集以及評測標準,數據集一般包含ImageNet和CUB-200-2011,評測方式主要包括兩個層面,一個是Bounding box,另一個是MASK。對於Bounding box來講,一個實例需要滿足兩個條件才算正確定位:預測目標框與GT IoU 大於0.5;分類正確。最後統計測試集或者驗證集上定位正確的比例。對於Mask來講,需要考慮像素級的IoU, 更能衡量定位的準確性。
02
弱監督目標定位發展的五大分類
第一類:影像層面的擦除
-
影像層面擦除。主要包括兩個工作,HaS和CutMiX。隨機地擦除影像層面的區域,同時讓網路能夠學到正確分類。在這個過程中驅動網路,去激活更大的區域,這類方法比較簡單直接。
第二類:特徵層面的擦除
-
特徵層面擦除。該類方法主要包括ACoL,ADL,MEIL。在主分類分支上,得到初始的CAM之後,對其特徵進行擦除,擦除之後的特徵進到另外一個分類分支上,兩個並列的分支同時分類,最終測試結果是通過融合兩個分支上的CAM作為最終結果。
第三類:基於空間約束,通過考慮如何在空間的相關性上,讓網路去激活更大的區域
-
基於空間約束。該類方法主要包括DANet, GCNet, SLTNet。DANet 通過類別分級重組緩解不同類別外觀相似導致的局部響應。另外,通過增加對應每個類的特徵數量並約束特徵的相似性來整體提高類別響應區域。GCNet通過預設三種不同的形狀:矩形、旋轉矩形與橢圓形近似擬合目標形狀,在最後分類分支借鑒對抗的思路,是的情景區域正確分類,背景區域無法分類引導網路學習準確的目標位置。SLTNet 的動機與DANet類似,為了緩解不同類相似紋理導致的局部響應問題,通過降低網路對於此類情況的類別損失,提高目標的響應區域。
第四類:Pixel-level的相關性
-
Pixel-level correlation。該類方法包括SPG,I2C,SPOL等方法。該類方法通過計算特徵中像素級別的相似性提高類別激活響應圖的完整性。具體的I2C利用隨機一致性與全局一致性兩個方面提高目標的響應區域。SPOL則是通過融合網路中不同層的特徵,利用淺層特徵中的豐富細節資訊,提高整體特徵的響應完整性。
第五類:對CAM的改進
-
對CAM方法的改進。主要包括Rethinking CAM 和 Relevance CAM兩個工作。Rethinking CAM 通過為GAP層設置閾值保證特徵聚合後不同通道特徵具有相當的值域,保證對應的類別權重取值相似,緩解GAP導致的局部響應問題。Relevance利用Layer-wise Relevance Propagation方法計算網路每一個層的與目標類別相對應的相關性,之後採用GAP層得到對應通道特徵相對於目標類別的權重,通過對不同通道特徵進行加權得到網路中任意一層的類別激活圖。另外,Relevance CAM 採用受限的LRP的方法,減掉非目標的相關性,得到比較精準的定位結果。這個方法與CAM相比優勢在於,不僅可以只對最後一層卷積進行可視化,還可以得到中間層的可視化結果,和不同層的定位結果。

03
基於目標結構資訊的弱監督目標
定位方法及研究成果
目前目標定位主要遇到兩個問題,第一是局部響應,第二是沒有辦法保持結構資訊。我們認為在訓練完成的模型中已經具備了較為準確的定位資訊,需要設計方法去從模型中提煉出來。而提取資訊的關鍵在於提取long range的特徵相似性。
因此,騰訊優圖提出兩個解決方案。
-
方案一:在CNN網路上提出叫做High-order self-correlation 方法去捕捉網路中long range的特徵相似性,解決CNN局部感受野導致的只能捕捉small range 的特徵相似性問題;
-
方案二:基於transformer,利用self-attention機制提供的全局感受野提取long range 特徵相似性。
方案一:SPA CVPR2021
為什麼GAP方式讓網路定位到局部上去?
首先,GAP在特徵聚合過程無法區分前背景,引入背景噪音,對分類造成負面的影響;其次,現在的卷積網路每一層的值域是不加限制的,網路正確分類可以通過在對應類別通道特徵上有局部的極高響應,這樣經過GAP後,仍然可以保證在對應類上有足夠高響應進行分類。
針對這個局限我們提出了兩個解決方案。
首先,對特徵的值域做約束,加約束的好處在於如果網路想要正確分類,想要更大的激活值,必須激活更多的區域。
第二是提出比較簡單的偽標籤的方式。用一個簡單的方差的方式,計算每個像素點在不同類別上的方差,如果方差比較小,我們就認為是背景,如果方差比較大,就認為是前景,通過這樣的方式可以得到一個簡單的偽MASK。

如何從網路裡面提取高階的相似性?
傳統的計算兩者的相關性,我們稱作一階相似性,即直接計算兩個特徵的距離。由於CNN的局部感受野的特點,一階相似性無法準確計算long range 的特徵相似性。
我們提出高階的自相關性,以二階相似性為例,我們在兩個特徵點之間尋找到第三個特徵點,使得第三個點可以滿足距離兩個點之間的相似性足夠高,之後將中間點分別到兩點之間的相似性的乘積,作為兩個點的距離。如圖,和代表兩個特徵向量,計算兩者之間的特徵距離是cos( α+β),在中間找一個點,現在計算和分別到的距離。在一定情況下可以滿足 . 由於中間橋樑點不可知,我們將遍歷整個feature map上除和兩點的所有點作為中間節點,之後取平均作為二階相似性。

基於高階相似性,我們首先得到初始的CAM,把CAM里高響應的區域作為初始定位結果,計算高響應裡面每個像素值所對應的高階相似性,把所有在高響應區每個高階的相似性取和做平均,作為最後的定位結果;又對背景區域做類似的操作得到對應背景的高階相似性圖。通過用前景減去背景的方式,得到最終的定位結果。

方案二:TS-CAM-ICCV2021

相比CNN網路,Transformer網路結構具有全局感受野,基於上面的分析,Transformer網路天然具有捕捉完整目標響應的優勢,但是attention map不具備類別資訊,使其無法直接得到對應目標類別的響應圖。

基於此,我們設計了語義耦合的注意力圖方法TS-CAM。TS -CAM對每個patch進行分類,最後通過GAP的方式得到分類的結果,而不是常用Vision Transformer 中利用單獨的class token進行分類。在測試階段,對分類結果進行重新排列,得到類似於CNN中 CAM的結果,進而得到每個類別上響應圖。之後和從Transformer結構裡面提取的整體相關性進行相乘,得到類別感知的激活圖。從特徵可視化結果上看,TS-CAM 的特徵激活更加完整。

04
在影像內容審核等領域中的應用
基於目標定位,優圖實驗室嘗試進行了一些簡單應用。
第一,對於一個數據集可以對一部分數據標註類別與bounding box, 對剩下的部分只標註類別,通過弱監督定位方法得到只有類別標註的數據的bounding box結果,之後採用半監督訓練的方式去提高整體模型的性能;另外一種是對影像中的部分實例進行類別與bounding box 的標註,利用弱監督目標定位方法對其他的目標進行預測,補全標註資訊,最後用來訓練整體的檢測網路。
第二,做影像的檢索,對於不同視角下變化較大的目標,一般會需要更加有細節資訊的局部特徵來做匹配,弱監督目標定位的方法可以很好地完成局部特徵的定位。
05
基於弱監督目標定位的思考
整體來講,弱監督目標定位的最大挑戰在於如何去解決,或者緩解分類和定位的一些根本性差異。為了更好地尋找一個能達到高判別性的分類介面,分類問題往往只能得到局部的響應,但是定位的目的是不同的,需要找到完整的目標區域,我們有以下簡單的思考。

第一,採用不同的architecture,就像Transformer,以及之前較受關注的MLP,利用全局感受野的優勢去激活更多的區域。
第二,Pre-training,目的在於如何引入一些先驗知識。可以試圖通過大規模的預訓練,額外引入一些我學到的針對這個目標的先驗知識,去改善它的定位結果。
第三,重新去考慮特徵和分類器之間的關係。主要問題在於如何設置一個能夠兼容定位和分類的目標函數,或者去改進GAP,保證在特徵聚合的過程儘可能保持目標的結構性。
第四,放寬約束,弱監督目標定位方法本身存在具有固有的天花板和局限性,CVPR 2020的工作提到本身弱監督目標定位是ill-posed問題,沒有辦法去解決,是否能夠放寬條件?目前,騰訊優圖也在做這方面的嘗試,這是一個更有價值,更有意義,更有前景的方向。