論文閱讀《RelationNet2: Deep Comparison Columns for Few-Shot Learning》

  • 2020 年 11 月 9 日
  • AI

十一月啦!
時間真的很快 從周四拖延一直到現在才寫完的博
希望接下來多努力一點 多加油一點
好運也多眷顧我一下!

論文名稱:《RelationNet2: Deep Comparison Columns for Few-Shot Learning》
論文地址://arxiv.org/pdf/1811.07100v3.pdf
論文解讀參考://blog.csdn.net/qq_36104364/article/details/109026610]
論文程式碼參考://github.com/zhangxueting/DCN

本篇文章只記錄個人閱讀論文的筆記,具體翻譯、程式碼等不展開,詳細可見上述的鏈接.

Background

簡單羅列幾點introduction的內容
1.引入小樣本學習
The ability to learn from one or few examples is an important property of human learning to function effectively in the real world
These observations have motivated a resurgence of interest in FSL (few-shot learning) for visual recognition and beyond.
2.基於度量學習的小樣本方法的優勢
(包括關係網路)
We build on deep metric learning methods due to their architectural simplicity and instantaneous training of new categories
Within this paradigm, the recent Relation Network achieved excellent performance by learning a non-linear comparison function
3.本文將這種思想進行擴展即,擴展了聯合聯合學習嵌入和非線性距離度量的想法,並提出了以下進一步的見解
首先,我們介紹在多個抽象級別上運行的多個元學習器的概念。
其次,實現對每個關係模組的更好的梯度傳播,深入監督所有關係模組
最後,為了能夠使用更深層的嵌入架構而不會過度擬合,我們設計了每個嵌入模組以輸出特徵分布,將每個影像表示為分布而不是向量
We extend this idea of jointly learning an embedding and a non-linear distance metric with the following further insights
First, we introduce the notion of multiple meta-learners operating at multiple abstraction levels.
Secondly, prior studies only use a single linear or non-linear comparison To provide the inductive bias that each layer of representation should be potentially discriminative for matching, and enable better gradient propagation to each relation module, we deeply supervise all the relation modules
Finally, to enable deeper embedding architectures to be used without overfitting, we design each embedding module to output a feature distribution, thus representing each image as a distribution rather than a vector

Related Work

1.Fast Adaptation
2.Classifier Synthesis
3.Deep Metric Learning
4.Use of Feature Hierarchies
5.Leaned Noise and Regularisation

Work

propose a new deep comparison network comprised of embedding and relation modules that learn multiple non-linear distance metrics based on different levels of features simultaneously.
Furthermore, to reduce over-fitting and enable the use of deeper embeddings, we represent images as distributions rather than vectors via learning parameterized Gaussian noise regularization
b本文提出了一個由嵌入和關係模組組成的深度比較網路,該模組可同時基於不同級別的特徵學習多個非線性距離度量。此外,為了減少過度擬合併允許使用更深層的嵌入,我們通過學習參數化的高斯雜訊正則化將影像表示為分布而不是矢量

Problem Definition

我們將小樣本學習視為C-way K-shot分類問題。
有一些帶有標記的源任務具有足夠的數據,稱為Dm-train,最終希望解決一組新的目標任務,稱為Dm-test,對於該任務,標籤空間是不相交的。
在元訓練和元測試中,我們將每個任務表示為由一組訓練示例的支援集和一組測試示例的查詢組成。
我們想要學習一種關於元訓練的模型,該模型可以在不進行微調的情況下即可泛化,以學習元測試中的新類別。

Model

本文所提出的模型結構如上圖所示,從本文題目就可以看出本文是基於RelationNet進行改進的,但與RelationNet相比本文有許多新的改進。從在網路基礎結構上可以看到,本文是引入了SENet網路,取代了原先Conv-4的結構
整個模型分為Embedding and Relation兩部分
接下來兩部分分別介紹:
1.Embedding Subnetwork

首先我們使用7x 7卷積,然後使用3×3最大池化
特徵提取網路是分成了四個EM模組,每個模組都是由SENet結構構成
最後,平均池化和完全連接層
每個模組都會輸出f_{\theta,\mu}^{v} 和f_{\theta,\sigma}^{v}兩個部分,分別表示特徵圖的均值和方差,然後通過重參數化的形式得到重構後的特徵圖,重參數化過程如下

其中ε 是從高斯分布中隨機取樣得到的,這樣使得每個模組每次重構時得到的特徵圖都帶有隨機性,這就能夠起到數據增強的效果
特別要注意的是,這裡提到的f_{\theta,\mu}^{v} 和f_{\theta,\sigma}^{v}兩個部分並不是真的對特徵圖計算均值和方差,而是把特徵圖分割成兩個部分,分別表示均值和方差
得到的重構特徵圖一方面要進入下一個特徵提取模組EM進行特徵提取,另一方面要進入相關性計算模組RM來計算查詢樣本和支援樣本的相關性

2.Relation Subnetwork
RM包含四個模組,每個模組都有2個SENet塊,並帶有一個池化和一個全連接層以產生關係得分,用於相似性的計算。
RM模組的輸入包括查詢樣本和支援樣本的特徵圖,還包括上一個RM輸出的計算結果

RM模組的輸出進過全局平均池化和全連接層處理得到相關性得分

Training
1.對特徵提取網路的參數θ 進行訓練

其中σ 表示四個EM模組輸出特徵圖方差的均值,m表示樣本的總數
2.對相關性網路參數ϕ 進行訓練

Experiment

簡單說一下幾個實驗結果
1.DCN獲得了優異的性能。 具體而言,SENET在 5-way miniImageNet的準確度達到了分別為63.19%和76.58。
DCN』s learned noise regularizer helps it to exploit a powerful SENet backbone without overfitting. Direct comparison among models is complicated by the diversity of embedding networks used in different studies
2.Tab. II. It shows that our model outperforms the alternatives clearly despite DCN being trained for 5-way, and the others specifically for 20-way, indicating another important aspect of DCN』s flexibility and general applicability
我們的模型優於其他模型,這表明DCN的靈活性和通用性。
3.Ablation Study(消融實驗)

深度監督:結果表明,深入的監督對於從一列關係模組中充分獲得收益很重要。

模組權重:與手動調整的模組權重相比,學習每個模組的注意權重會有所幫助。更重要的是,它無需手動調整模型權重
多個非線性指標:分別顯示了每個DCN關係模組輸出分數
每個模組都具有競爭性,但是它們的組合顯然可以帶來最佳的整體性能,這支援了我們的觀點,即應使用要素層次結構的多個級別來做出通用的匹配決策。
4.我們知道,RM的預測不一定會達成一致。但是要找出它們是否互補,我們在圖4中繪製了RM-1與RM-4的每類準確性的散點圖。我們可以看到對角線上有許多類別,表明RM-1和-4經常使他們正確。但是,在對角線下方有一些類別,表明RM-1比RM-4更經常使它們正確。

總結

本文是在RelationNet基礎上進行了探索和改進,引入SENet網路結構,作為基礎模組用於特徵提取與相關性計算,對特徵提取網路的四個階段輸出分別進行相似性度量,形成一種深度監督的形式,通過重參數化的形式對每個特徵提取模組的輸出進行重構,引入了隨即參數實現了數據增強。


Ending~
十一月加油!