論文閱讀——Universal Correspondence Network

  • 2020 年 11 月 30 日
  • AI

一、概述

  這是圖像匹配領域中一篇比較經典的論文,由斯坦福AI lab發表於2016年CVPR。本文提出了一種利用全卷積網絡直接預測dense descriptor的思路,對近兩年的很多文章都有比較大的影響。

  本文的貢獻:
  1.提出一種基於全卷積網絡的密集特徵提取與關聯預測結構,對任意圖像關聯任務均適用
  2.提出一種在特徵空間上最近鄰搜索以在線挖掘困難負例的訓練方法,加快了網絡收斂
  3.提出一個convolutional spatial transformer模塊(層)來模擬patch normalization過程
  4.刷新了稀疏SFM、密集匹配、語義匹配等多個數據集的SOTA指標,並對常見的variation具有魯棒性

   本文值得關注的地方:
  1.本文作者直接用caffe手擼了三個新的網絡模塊:convolution spatial transformer、KNN layer和channel-wise L2Norm layer(即tf.nn.l2_normalize),動手能力非常強
  2.Convolution spatial transformer是針對我們目前關心的patch normalization提出一種解決方案。雖然感覺要一次學習所有patch的變換歸一化,可能比ST難學很多,但也是目前所了解到的唯一一種在非patch-based方法中能對patch進行操作的解決方案了。能把一個對全圖apply的operation改成convolution風格,來實現對多個圖像patch apply,這一點就感覺真的很強了。
  3.KNN的靈活使用:訓練中通過比較某個位置(xi,yi)的特徵與其在另一張圖像上的最近鄰之間的距離,來挖掘困難樣本;預測階段對兩個dense feature提取匹配關係時,也是在特徵空間上利用KNN搜索來達到O(N)的複雜度

  另外需要加以區分的是,本文和之前讀的一些基於特徵檢測和描述的方法有些區別:本文並不涉及特徵檢測,甚至提取的特徵也並不解釋為描述子。本文解決的是輸入兩張圖像然後直接提取其各自特徵,在特徵空間上進行逐像素的最近鄰搜索,得到預測的correspondences。這種任務就是所謂的dense correspondence。

二、方法

  2015年前後出現了一些基於相似度的方法(以patch-CNN為例),這類方法旨在利用CNN直接學習一個相似度函數。其模式如下圖,缺點在於對包含N個關鍵點的圖像對,需要進行O(N^2)次兩兩比較。這是本文要解決的一個主要問題。

2.1整體系統設計

  本文旨在設計一個通用的圖像關聯預測器,來同時處理不同類型的圖像關聯任務:稀疏特徵匹配、稠密關聯、語義關聯等。整體流程比較清晰,用孿生網絡(兩個網絡各層權重完全共享)接收輸入圖像對(A,B),分別提取出特徵圖,然後在特徵空間找到A特徵每個像素位置在特徵B中的最近鄰,進而實現兩圖像關聯的預測。

  具體網絡結構:特徵提取部分主體使用GoogLeNet(conv1 – inception_4a),然後送入convolutional spatial transformer layer,在特徵空間上進行逐像素的patch normalization操作,最後將特徵送入L2 norm layer,將每個像素位置的特徵歸一化到norm為1,便於後續比較。

  下面是convolutional spatial transformer的結構示意,該模塊的物理意義是模仿patch normalization環節。

2.2 訓練

  相比基於檢測和描述的方法,本文的訓練目標還算簡單,直接用了contrast loss:讓正對在特徵空間相似,而負對遠離且要大於一個margin。由於負對比較多且大多數負對的特徵距離都很遠,對優化沒有貢獻,故作者認為困難負例挖掘非常重要。作者提出了一個直觀的方式:對輸入圖像對(A,B),對圖像A特徵上某個位置,在圖像特徵B上挖掘其對應的難負例時,可以直接找到該位置特徵在圖像B特徵上的最近鄰即可。

  訓練loss如下:

  測試階段也是依靠特徵空間上的最近鄰搜索預測出關聯的。對輸入圖像對(A,B)分別預測得到特徵,然後A的每一個特徵位置只需要和B的特徵計算一次最近鄰即可,故測試階段的複雜度是O(N)而不是O(N^2)。

三、實驗結果

  由於主要關注系統設計中的idea,對具體的任務(包括其測度)還不是很熟悉,這裡就簡單放幾張示意圖。

  對於幾何匹配任務:(注意圖(a)中有兩種關鍵點:FAST關鍵點和密集關鍵點,即逐像素)

  對於語義關聯任務:

四、問題記錄:

1.論文實驗部分說利用全卷積網絡得到分辨率是原圖1/4的特徵,然後再利用插值得到密集預測的特徵(這裡指的是上採樣回原圖分辨率?)以避免稀疏匹配中存在的量化誤差問題。這部分在補充材料的網絡結構圖並沒有體現?
2.感覺還是對sparse和dense的區別沒有搞得特別清楚。Dense方法是把原圖每一個像素都當做關鍵點,然後找到其在另一張圖上的最近鄰嗎?