CVPR 2020丨碼隆科技提出 SiamAttn,將孿生網路跟蹤器的性能提至最優水平

  • 2020 年 6 月 1 日
  • AI
本文介紹的是 CVPR 2020 論文《Deformable Siamese Attention Networks for Visual Object Tracking》,作者來自碼隆科技。本篇論文解讀首發於「碼隆播報」公眾號。
作者 | 碼隆科技

論文地址://arxiv.org/abs/2004.06711

本篇論文中,碼隆科技提出了可變形孿生注意力網路(Deformable Siamese Attention Networks,縮寫為 SiamAttn),以此來提升孿生網路跟蹤器的特徵學習能力。這種注意力機製為跟蹤器提供了一種自適應地隱式更新模板特徵的方法。實驗表明,SiamAttn 明顯超越了現有最新演算法,達到了目前的最優水平。


1
背景和動機

基於孿生網路的目標跟蹤器在視覺目標跟蹤任務上取得了非常出色的表現。然而,在以往大多數孿生網路跟蹤器中,它們的目標模板特徵在跟蹤過程中都是不會進行更新的;並且目標與搜索區域的特徵在計算過程中相互獨立,這是現有孿生網路跟蹤的性能瓶頸所在。

不同於以往的方法,在本文中,我們提出了可變形孿生注意力網路(Deformable Siamese Attention Networks,縮寫為 SiamAttn),以此來提升孿生網路跟蹤器的特徵學習能力。為此,我們設計一個新的孿生注意力機制,其中包括可變形的自注意力機制和互注意力機制。自注意力機制通過空間注意力和通道注意力可學習到強大的上下文資訊和選擇性地增強通道特徵之間的相互依賴;而互注意力機制則可以有效地聚合與溝通模板和搜索區域之間豐富的資訊;可變形卷積層的加入使得該模組能更靈活地根據目標外觀對卷積區域進行取樣。這種注意力機製為跟蹤器提供了一種自適應地隱式更新模板特徵的方法。

此外,我們還設計了一個區域修正模組來對預測結果進行修正,該模組進一步預測目標更準確的包圍框和目標的掩膜,最終得到更準確的跟蹤結果。

下方的 gif 展示了部分 SiamAttn 在 VOT2018 數據集上的測試結果,我們在六個標準的跟蹤性能測試集上測試了 SiamAttn,和另外四個高水準的跟蹤器結果對比可見,SiamAttn 的跟蹤結果要更加準確,並且對於目標的外觀變化、複雜背景、遮擋以及鄰近物體的干擾更加魯棒。因此實驗表明 SiamAttn 明顯超越了現有最新演算法,達到了目前的最優水平。

2
概要

視覺目標跟蹤的目標是對一段影片裡面的目標物體進行準確的跟蹤。該任務在自動駕駛、人機交互、機器感知等領域均有非常廣泛的應用,但由於目標的變形、運動、遮擋、複雜背景等原因,建立一個快速和魯棒的跟蹤器具有很大的挑戰性。

近些年由於深度學習技術的快速發展,目標跟蹤任務也得益於深度學習技術所提供的強大的特徵表達能力。如 SiamFC、SiamRPN、DaSiamRPN、SiamRPN++、SiamMask 等基於孿生網路結構的跟蹤器,均獲得了很好的跟蹤效果。

但是,因為孿生網路跟蹤器完全是在線下通過大量從影片中提取出來的成對的幀進行訓練,因此通常在跟蹤過程中,模板特徵並不會進行更新。這導致了它們對於外觀具有很大變化、變形、遮擋的目標的跟蹤過程中,很容易導致跟蹤漂移。一方面它們在目標的卷積特徵計算過程中,模板和搜索區域的特徵提取通常是相互獨立並沒有進行交互,另一方面也會丟棄掉很大部分的背景資訊,而這些背景資訊對於區分目標和鄰居的干擾物十分重要。

受到電腦領域裡注意力機制的成功應用的啟發,我們提出了一個可變形孿生注意力網路來解決目標跟蹤問題。我們將會描述一種新的可變形注意力機制,該機制可提高網路對於目標特徵的表達能力、使得特徵對於目標外觀的變化擁有更強的魯棒性,對目標和鄰近干擾物或複雜背景有更好的區分能力。

本文的主要貢獻總結如下:

  1. 我們設計了一種新的孿生注意力機制,該注意力機制計算了可變形的自注意力特徵和互注意力特徵。自注意力特徵在空間域上學習到豐富的影像上下文資訊,在通道域上選擇性地增強通道特徵之間的相互依賴;互注意力特徵聚合與溝通模板和搜索區域之間豐富的資訊,提高了特徵的區分能力。

  2. 我們設計了一個區域修正模組,在經注意力的特徵的基礎上,來對預測結果進行進一步的修正,同時生成跟蹤目標的包圍框和掩膜。該模組可使跟蹤的結果更加準確。

  3. 為了檢驗 SiamAttn 的性能,我們在六個標準的跟蹤性能測試集上測試了 SiamAttn,實驗表明 SiamAttn 明顯超越了現有最新演算法,達到了目前的最優水平,同時在使用 ResNet-50 作為骨架網路的基礎上,保持了實時的速度。

3
SiamAttn

在影片的第一幀給出需要跟蹤的目標的位置,我們的目標是在影片序列接下來的每一幀中都給出該目標準確的位置。通常基於孿生網路結構的跟蹤器的做法是將第一幀給定的目標模板和接下來的待搜索區域同時輸入到孿生網路當中提取出特徵,然後對這兩個特徵進行互相關操作,得到的響應圖就代表模板在搜索區域不同位置的得到響應的響應值大小,然後對該響應圖再進行進一步的回歸得到最終目標的位置。

如圖 2 所示,我們提出的 SiamAttn 包含四個部分:輸入、可變形孿生注意力模組、孿生 RPN 模組還有區域修正模組。

圖 2 SiamAttn 的總體結構圖,它包含四個部分:輸入、可變形孿生注意力模組、孿生 RPN 模組還有區域修正模組。我們使用 ResNet-50 作為骨幹網路來提取輸入圖片的特徵,並將 S3、S4、S5 的特徵輸入到 DSA 模組進行注意力增強;然後將經過增強的特徵輸入到 Siamese RPN,產生一個最佳的 proposal;最後由區域修正模組對該 proposal 進行最後的修正。

1、可變形孿生注意力模組

可變形孿生注意力(Deformable Siamese Attention, DSA)模組將模板和搜索區域的特徵作為輸入,然後對其應用孿生注意力機制,最終輸出經過增強的特徵。如圖 3 所示,DSA 模組又包含兩個子模組:自注意力子模組和互注意力子模組。

圖 3 可變形孿生注意力模組總體結構圖

自注意力子模組兼顧通道和空間位置兩個方面。不同於分類任務和檢測任務,它們的目標類別都是預先設定的,而目標跟蹤則是類別無關的任務,事先並不知道需要跟蹤目標的類別,而是在影片的第一幀給出,並在整個跟蹤過程中固定。而在卷積神經網路中,每一個通道的響應通常反應了某種特定類別的響應,也就是說大部分通道的響應類別與跟蹤目標不同,因此,同等地對待每一個通道的響應會限制網路特徵的表達能力。另一方面,受感受野的限制,網路特徵中的每一個空間位置都只能捕捉到附近的局部資訊,因此,學習到全局上下文資訊對於特徵表達能力也非常重要。自注意力模組通過計算出通道的注意力特徵圖來自適應地對每一個通道的響應進行加權,將不相關通道的響應的影響降低;通過計算出空間位置的注意力特徵圖來捕捉空間每一個位置的資訊,使得每一個位置的特徵都能捕捉到影像全局的資訊。

互注意力子模組則致力於改變孿生網路兩個分支在計算特徵的過程中缺乏溝通的現狀。通常來說,模板分支和搜索分支的特徵直到進行互相關操作的時候,才會進行交互,而在此之前,相互獨立。然而,在提取特徵的過程中,對每一個分支來說,另外一個分支的資訊至關重要。尤其對於目標跟蹤任務,很常見的一種情況就是多個類似的目標同時出現在相互的附近,甚至相互進行遮擋。如果孿生網路兩個分支在計算特徵的過程中就進行有效的資訊交互,則有助於各自捕捉到更有用的資訊。而互注意力子模組首先根據每個分支自己的資訊計算出注意力特徵圖,然後將這個特徵圖傳送到另外一個分支,接收到特徵圖的分支則根據這個特徵圖來增強自己提取到的特徵,最終實現更有效的特徵提取。

在每個分支的最後,我們還加入了可變形卷積以替代常規的卷積,使網路的感受野更加靈活。目標跟蹤過程中通常伴隨著大量的變形、遮擋、角度變換等情況,常規卷積正方形的取樣方式限制了網路感受野的靈活性,而可變形卷積的靈活性則十分適用於解決目標跟蹤的問題。因此,在平衡計算效率和精度的情況後,我們在孿生網路每個分支的最後加入了 3*3 的可變形卷積層。

圖 4 顯示了經過 DSA 模組和不經過 DSA 模組的特徵響應對比圖,可以看出,使用了 DSA 模組的特徵響應要更加準確,能對周圍干擾物和背景進行更有效的區分。

圖 4 目標響應的可視化結果示例。第一列為搜索區域圖,第二列為不經過 DSA 模組網路對目標得到的響應圖,第三列為經過 DSA 模組網路對目標得到的響應圖。

2、區域修正模組

我們使用 Siamese RPN 來進行 proposal 的提取,然後對於 Siamese RPN 提取出來的最佳 proposal(得分最高),我們提出一個區域修正模組來對其進行進一步的修正,其中包括更準確的包圍框的預測以及對應目標掩膜的預測。

我們首先根據 proposal 的位置,使用可變形 RoI Pooling 提取出對應區域的特徵。而後使用兩個輕量的卷積 head 來作進一步的預測:其中一個回歸它的包圍框,而另一個則對目標的掩膜進行預測。

在 ATOM 和 SiamMask 等跟蹤器中,它們對包圍框或者掩膜的預測都是進行密集地預測,而在 SiamAttn 中,則是使用單獨的卷積 head 進行預測,因此它的計算效率非常高而且能得到更準確的預測結果。

3、損失函數

SiamAttn 的整個訓練過程是端到端的,而訓練損失函數為各個模組的損失函數的加權和。損失函數計算公式如下:

其中分別對應的是 Siamese RPN 階段的 anchor 分類損失和回歸損失;類似地,則分別對應區域修正階段對於包圍框和掩膜的預測損失;這幾個損失由 3 個加權因子來進行平衡,在我們的實驗中,分別設置為 0.2、0.2 和 0.1。


4
實驗

1、公共數據集評估結果

我們在 OTB2015、UAV123、VOT2016、VOT2018、LaSOT 和 TrackingNet 這六個標準的跟蹤性能測試集上驗證了 SiamAttn 的有效性。從表中可以看出我們的方法達到了非常好的效果,尤其是對於 VOT 這種需要帶旋轉的包圍框來更好地定位目標的數據集,SiamAttn 有更為明顯的提升。

圖 5 OTB-2015 實驗結果圖

圖 6 VOT 實驗結果圖

圖 7 UAV123 實驗結果圖

圖 8 LaSOT 實驗結果圖

圖 9 TrackingNet 實驗結果圖

2、消融實驗

在 Ablation study 中,我們也進一步驗證了各個子模組對於模型整體性能的貢獻。詳細的分析見 paper 和 supplementary。

圖 10 SiamAttn 各個子模組對於模型整體性能的貢獻

圖 11 可變形卷積和池化對模型性能的影響

圖 12 不同訓練集對模型性能的影響

 

5
總結

我們提出一個解決目標跟蹤任務的新型跟蹤器:SiamAttn。在該跟蹤器中引入了效果顯著的孿生注意力機制,其中包括自注意力和互注意力,以幫助模型獲得更好的目標區分能力。與以往的跟蹤器不同的是,該注意力機制提供了一種自適應地隱式更新模板特徵的方法,並且引入了可變形卷積層和可變形池化層增大與靈活化了每個點的感受野,以確保提取到目標更有效的特徵。並且設計了一個輕量的區域修正模組來進一步提升目標跟蹤的準確性。在保持實時的情況下,多個數據集上的大量實驗都證明了我們的方法的有效性。


6
補充

上方圖片為 SiamAttn 在 VOT2018 數據集上的測試結果。它表明 SiamAttn 有能力跟蹤與分割大多數包含不同尺寸、不同動作、發生形變以及擁有複雜背景的目標。