DivideMix: Salesforce提出使用半監督學習大幅改進含雜訊標籤的學習

  • 2020 年 2 月 24 日
  • 筆記

點擊我愛電腦視覺標星,更快獲取CVML新技術


分享一篇今天新出的論文DivideMix: Learning with Noisy Labels as Semi-supervised Learning,來自SalesForce研究院的工程師提出一種使用半監督學習方法改進含雜訊標籤數據的學習,顯著改進了精度,大幅超越之前的State-of-the-art。

該文作者資訊:

眾所周知,近年來深度學習的長足進步離不開大規模高標準的標註數據,但在大多數現實問題中,獲得數量可觀的標註數據需要付出大量的時間和金錢代價。

而互聯網上可以獲得大量的含有標籤雜訊的數據,比如從搜索引擎查找返回的數據、從社交網路下載的含有tag的數據等,如何利用這些大規模含雜訊標籤的數據是降低標註成本的重要方向。

該文提出DivideMix方法,核心思想為 co-divide + 改進的MixMatch,其演算法流程如下:

1. 提出了co-divide,該過程同時訓練兩個網路。對於每個網路,在其每個樣本的損失分布上動態擬合高斯混合模型(GMM),以將訓練樣本分為有標籤數據(最可能幹凈的數據)和無標籤數據(最可能是雜訊的數據)。然後,將分割後的數據用於訓練另一個網路。同分使兩個網路保持分開,以便它們可以過濾不同類型的錯誤並避免自訓練中的確認偏差。

2. 在後續的半監督學習階段,通過標籤co-refinement和co-guessing來改進MixMatch,解決標籤噪音問題。對於有標籤的樣本,我們使用GMM針對另一個網路的網路預測來完善其真實標籤。對於沒有標籤的樣本,我們使用兩個網路的集成為它們的標記做出可靠的猜測。

演算法流程:

實驗結果

作者在多個數據集上不同的雜訊比例下進行了實驗,結果表明,DivideMix在多個基準數據集上顯著提高了精度。齊刷刷站到最高點!

該文已經被ICLR 2020錄用,作者也已將程式碼開源,感興趣的小夥伴,趕緊實驗下吧。

論文地址:

https://arxiv.org/pdf/2002.07394.pdf

程式碼地址:

https://github.com/LiJunnan1992/DivideMix