CVPR 2020 | 弱監督怎樣做影像分類?上交大提出自組織記憶網路

  • 2020 年 3 月 11 日
  • 筆記

來源:公眾號 機器之心 授權

近日,電腦視覺高峰會 CVPR 2020 接收論文結果公布,從 6656 篇有效投稿中錄取了 1470 篇論文,錄取率約為 22%。本文介紹了上海交通大學被此高峰會接收的一篇論文《Learning from Web Data with Memory Module》。

在這篇論文中,研究者利用網路數據研究影像分類任務 (image classification)。他們發現網路圖片 (web image) 通常包含兩種雜訊,即標籤雜訊 (label noise) 和背景雜訊 (background noise)。前者是因為當使用類別名 (category name) 作為關鍵字來爬取網路影像時,在搜索結果中可能會出現不屬於該類別的圖片。後者則是因為網路圖片的內容與來源非常多樣,導致抓取的圖片往往包含比標準的影像分類數據集更多的無關背景資訊。在下圖中的兩張圖片均用關鍵字「狗」抓取。左邊圖片的內容是狗糧而不是狗,屬於標籤雜訊;右邊的影像中,草原佔據了整個影像的大部分,同時小孩子也佔據了比狗更為顯著的位置,屬於背景雜訊。

這兩種雜訊給利用網路數據學習影像分類器帶來了很多額外的困難,而現有的方法要麼非常依賴於額外的監督資訊,要麼無法應對背景雜訊。論文中提出了一種不需要額外監督資訊的方法來同時處理這兩種類型的雜訊,並在四個基準數據集上的實驗證明了方法的有效性。本文已被 CVPR2020 接收。

論文地址:https://arxiv.org/abs/1906.12028

方法概述

論文的方法方法建立在多實例學習 (Multi-Instance Learning) 的框架下的。在訓練分類器前,首先使用一種無監督的 proposal 提取方法 EdgeBox 來從每張網路圖片中提取大量的 proposal,並使用 ROI(Region Of Interest) 來同時指代圖片和其 proposal。按照多實例學習的理念,研究者將每個 ROI 當做一個實例 (instance),並將若干相同類別圖片的所有 ROI 組成一個具有 multi-Instance 的 bag。在訓練時,使用 bag-leve 表徵,即 ROI-level 表徵的加權和,來訓練影像分類器。由於每個 bag 都有較大概率擁有乾淨的 ROI,可以通過對 ROI 賦予不同的權值,來使得其 bag-level 表徵具有更少的標籤雜訊和背景雜訊,從而得到一個更好的影像分類器。

為了給 ROI 賦予合適的權重,研究者設計了一種新穎的自組織記憶模組(Self-organizing Memory Module)。通過自組織記憶模組聚類得到每個影像類別中最具有區分性 (discriminativeness) 和代表性 (representativeness) 的表徵,並通過每個 ROI 與這些表徵的關係來調整其權重。方法整個框架如下圖所示:

Self-Organizing Memory Module

自組織記憶模組的主要功能是為每個 bag 內的 ROI 賦予合適權重,從而讓 bag-level 表徵更接近於不含雜訊的圖片。它的原理是通過對所有 bag-level 表徵進行聚類,從而找到每個類別的若干聚類中心(clustering center),再利用這些聚類中心調整其最接近的 ROI 的權重。雖然一些傳統的聚類方法,比如 K-means,也可以實現類似的功能,但是我們設計的自組織記憶模組更加靈活和強大。它不僅可以集成帶端到端的訓練系統中,同時還能存儲和更新一些有用的資訊作為輔助。

具體來說,自組織記憶模組由 key slot 和 value slot 組成。其中,key slot 用於儲存聚類中心的表徵,而 value slot 則儲存了 key slot 對於每個類別的 discriminative score(d-score)和 representative score(r-score)。在某個類別上的 d-score 和 r-score 越高,則表明該 key slot 對這個類別具有較大的區分性和代表性。

使用自組織記憶模組時,我們首先找到一個 bag 中每個 ROI 最接近的 key slot(winner slot),再用 winner slot 對 bag 所在類別的 d-score 和 r-score 來調整其中 ROI 的權重,從而改善 bag-level 表徵,使其更接近於乾淨的圖片表徵。接著,改善後的 bag-level 表徵又能夠重新幫助學習得到更好的 key slot 和 value slot。

受到 self-organizing map (SOM) 的啟發, 研究者還在 key slot 上設計了一個鄰域約束來讓自組織記憶模組對初始化不敏感,並能產生比較平衡的聚類結果,因此把使用的記憶模組命名為 self-organizing memory module (自組織記憶模組)。

實驗與可視化結果

這一模型在四個基準數據集上做了大量的實驗,實驗結果表明,模型具有顯著的優越性。除了定量結果,團隊也提供了深入的定性分析。

以 Clothing1M 數據集為例,對西裝(Suit)這個類別可視化了其中三個 key slot。每個餅圖顯示對應 key slot 在 14 個類別上的 d-scores,和其在西裝類別上的 r-score。同時論文也展示了與每個 key slot 餘弦相似度(cosine similarity)最高的 5 個 ROI。

如餅狀圖所示,第一個 key slot 的 d-score 最低,因為它同時包含了很多西裝和風衣(Windbreaker)的 bag,所以對西裝的區分性不是很大。與此同時,其屬於西裝的 bag 也比其他兩個 key slot 的少,不具有代表性,所以 r-score 也是最低的。也就是說,第一個 key slot 對西裝這個類別即不具有區分性,也不具有代表性。相較之下,後兩個 key slot 有比較高的 d-score,因為它們分別代表了不同的顏色的西裝,即彩色西裝和深色西裝。另外,因為該數據集中彩色西裝比深色西裝要少,所以第三個 key slot 比第二個更能代表西裝這個類別,因此其對應的 r-score 也更高。

為了進一步展示自組織記憶模組的特性,研究者還在 Clothing1M 上用可視化了所有 key slot 的 d-scores。通過餅狀圖可以看到,同一個類別的 bag 在 key slot 的空間中是聚集在一起的。此外,他們還用柱狀圖分別展示了所有 key slot 在毛衣(Sweater)和西裝兩類上的 r-score。可以看到,這兩類別的 bag 也佔據了不同區域的 key slot,表明了我們方法的聚類結果具有非常合理的結構。

總結

在本文中,在多實例學習的框架下,研究者設計了一種自組織記憶模組來同時解決網路圖片中的標籤雜訊和背景雜訊問題,並在影像分類實驗中取得了優異的結果。通過豐富的可視化結果表明了方法的有效性,並幫助了解了聚類結果的內部結構。