騰訊優圖斬獲ICCV2021 LVIS Challenge Workshop冠軍,同時榮獲該項目最佳創新獎

近日,在ICCV2021舉辦的LVIS Challenge Workshop比賽中,騰訊優圖實驗室榮獲冠軍,同時被授予該項目的最佳創新獎。LVIS Challenge 2021 是大規模長尾數據的實例分割任務,作為本屆ICCV的重磅比賽之一,吸引了眾多中國外知名企業和高校參加。此次競賽的核心技術方案也將應用於工業AI質檢場景中,進一步地提高缺陷檢測與分割的精準度,用最核心的技術支援產業落地。

圖片

圖1. 比賽最終榜單,騰訊優圖排名第一

LVIS是包含1k+類別的大規模長尾分布數據集,相較於常見的實例分割數據集,LVIS具有更精細的標註和更多的類別,從而其分布更加接近自然場景。據統計,尾部類別的實例數量僅僅佔比總實例數量的約0.41%,這對現有的實例分割演算法提出了極大的挑戰。另外,不同於以往的比賽,本次LVIS比賽採用了Boundary AP替代Mask AP作為評價指標,對分割精度提出了更高的要求。

圖片

圖2. LVIS競賽介紹

針對上述挑戰,騰訊優圖團隊提出了平衡分布,優化邊緣的實例分割方法,在測試集上取得了48.1%AP的結果。值得一提的是,在本次Workshop會議中,Ross Girshick 指出優圖此次方法的APr與APf的結果非常相近!

圖片

圖3. Workshop會議競賽結果宣布Apr與APf接近

 具體技術細節如下

騰訊優圖團隊將Hybrid Task Cascade(HTC)實例分割演算法作為baseline, 採用了表徵能力更強的Swin-Transformer作為基礎骨幹網路,同時,基於CBNetV2,複合鏈接兩個相同的Swin-Transformer網路,作為最終的骨幹網路來加強性能。

圖片

圖4. Strong baseline

針對長尾問題,騰訊優圖提出了分布平衡模組,包括數據平衡和損失平衡處理,從而提升網路訓練過程中對尾部稀有類別實例的關注。其中,數據平衡方法包括RFS, Balanced Copy-Paste和Balanced Mosaic,增加尾部類別數據出現的概率,兼顧了image-level和instance-level的數據平衡性。同時,優圖採用了Seesaw Loss,在訓練中動態地抑制尾部類別上過量的負樣本梯度,並補充對誤分類樣本的懲罰。

為了更好的優化分割效果,騰訊優圖提出了精細分割模組,包含Mask Scoring和RefineMask方法。基於Mask Scoring方法,解耦了分類置信度與實例分割得分,用新的網路分枝學習實例預測的品質,從而避免了分類置信度與分割品質不匹配的問題。針對邊緣分割精度優化,騰訊優圖採用了RefineMask方法,融合多階段的細粒度的上取樣語義特徵,從而產生高品質分割結果。考慮時間和精度的平衡,優圖實驗室僅將pipeline中最後一個Mask head替換為Refinemask head。由此可見,騰訊優圖的方法仍然具有提升的空間。

除此之外,基於騰訊優圖對訓練過程的觀察,創新性地採用了頭尾部性能平衡的訓練策略,不僅提升了整體的AP結果,更加極大地拉進了尾部與頭部類別性能的差距。最終,優圖團隊以48.1%AP排名第一。

圖片
圖5. 分布平衡模組 
圖片

圖6. 精細分割模組

作為騰訊旗下頂尖的人工智慧實驗室,優圖實驗室聚焦電腦視覺,專註人臉識別、影像識別、OCR等領域開展技術研發和行業落地,在推動產業數字化升級過程中,始終堅持基礎研究、產業落地兩條腿走路的發展戰略,與騰訊雲與智慧產業深度融合,挖掘客戶痛點,切實為行業降本增效。未來,騰訊優圖實驗室也將繼續深耕CV技術,並將持續探索更多的應用場景和應用空間,讓更多的用戶享受到科技帶來的紅利。