CVPR2021| 行人搜索中的第一個anchor-free模型:AlignPS

論文地址://arxiv.org/abs/2103.11617

代碼地址://github.com/daodaofr/AlignPS

前言:

本文針對anchor-free模型用於行人搜索中會出現三個不對齊問題:Scale misalignment,Region misalignment,Task misalignment提出了相應的解決方案,進一步提出了一個更簡單更有效的anchor-free模型–AlignPS。

 

Introduction

行人重識別的方法分為兩個類別,一類是基於two-step的方法,如圖a所示,先使用現成的模型進行行人檢測,將其裁剪出來,再放進re-id網絡識別。這種方法可以獲得比較好的效果,但對時間和資源消耗比較大。第二類是基於one-step的方法,如圖b所示,使用一種端到端的方式檢測並識別。

圖片

 

如圖b所示,這種一步到位的方式在檢測出行人後,將檢測框內的feature通過ROI Align得到相同大小feature maps, 再進行回歸,分類,re-id損失值的計算。這種方式類似於目標檢測的two-stages的方法,我們稱之為one-step two-stage模型。

這種one-step two-stage模型不可避免的與目標檢測的two-stages模型一樣,也有一些內在缺陷,例如密集anchors帶來的高計算量,對大小、比例和anchor數量這些超參數的高敏感性。

最近幾年,基於anchor-free的模型展現了獨有的優點,即更簡單的結構和更快的速度。基於這一點,作者提出要在Re-ID中構建一個anchor free模型。

圖片

 

但這會存在以下三個不對齊的問題:

1) 許多anchor-free模型通過FPN的方式學習多尺度特徵以實現目標檢測的尺度不變性。但在Re-ID上會存在尺度不對齊的問題,這是因為在gallery set中會存在各種尺度的人。

2) 沒有了ROI-Align操作,anchor-free模型無法根據指定區域將re-id和檢測聯繫起來。因此,必須直接從特徵圖中學習re-id embedding,而無需顯式的區域對齊。

3) 行人搜索可以直觀地認為是一個把檢測和Re-ID作為自認為的多任務學習框架,因此需要找到這兩個任務的平衡。

 

在這篇論文中提出了第一個用於行人搜索的anchor-free模型,稱之為Feature Aligned Person Search Network (AlignPS),AlignPS遵循Re-ID優先的原則提出了aligned feature aggregation (AFA) module,用於處理上面這三個問題。

AFA通過可變形卷積重塑了FPN的一些構造塊,通過特徵融合解決了在Re-ID特徵學習中區域和尺度不對齊的問題。同時優化了Re-ID和檢測在訓練過程中的步驟,更注重生成更魯棒的Re-ID embeddings。這些簡單有效的設計成功的將一個經典的anchor-free模型變成了一個很強很有效率的行人搜索框架,超過了anchor-based模型。

 

Feature Aligned Person Search Network

 


AlignPS的基礎框架是FCOS,FCOS是目標檢測中最常用的one-stage anchor-free框架之一。

前面提到,AlignPS是基於Re-ID優先的原則,為了學習Re-ID embedding,直接使用AFA輸出的feature maps進行flatten,沒有使用額外的embedding layers。

對於檢測,使用了FCOS中的檢測頭。檢測頭分成兩個分支,兩條分支都由四個3×3卷積層組成,第一個分支預測回歸偏移和中心得分,第二個對前景背景進行分類。最後,AFA輸出feature maps的每個位置都會與一個含有分類、中心得分以及Re-ID embedding的Bounding boxes聯繫起來。

 

Aligned Feature Aggregation

Scale Alignment–FCOS採用在不同層檢測不同大小的目標,對於一些重疊的有歧義的目標很有可能會分到不同的層,因此可以很好的提升檢測效果。然而這對於Re-ID來說這並不好,因為Re-ID需要與gallery set進行比較,在不同的尺度下檢測將會出現尺度不對齊的問題。

本文的解決辦法是只使用P3層的信息,這樣就不存在尺度不對齊的問題,注意,可以這樣做的原因是P3層基本融合了全部的語義信息。在上一篇論文分享《YOLOF: 特徵金字塔的新方式》中提到,特徵金字塔的最頂層基本融合了全部語義信息,進行多尺度融合對精度提升影響不大。

 

Region Alignment–前面提到沒有ROI-Align操作會出現Region misalignment問題,AlignPS從三個方面處理這個問題。

圖片

 

第一,使用3×3可變形卷積來代替FPN中鄰側連接過程中的1×1卷積。3×3可變形卷積可以使網絡自適應input feature maps的感受野,很好地完成Region Alignment。

第二,使用concatenation代替自頂向下路徑中的求和操作,這可以整合多尺度特徵。

第三,再次使用3×3可變形卷積代替FPN輸出層的3×3卷積。這可以對其多尺度特徵從而生成更精確的feature map。

 

Task Alignment–提出Re-ID優先是基於以下兩點考慮。

第一,因為現有的一些檢測框架有比較強的效果,以至於檢測任務相比Re-ID更好處理,因此學習判別Re-ID embedding是首要關注的問題。經過作者們討論,在anchor-free框架中,Re-ID的performance對Region misalignment更敏感。因此,傾向於Re-ID對於行人搜索是比較理想的。

第二,對比於檢測優先和兩者並重的結構,Re-ID優先的結構不需要額外的層去生成Re-ID embedding,從而更有效率。

 

Triplet-Aided Online Instance Matching Loss

 

目前典型的行人搜索方法大多採用Online Instance Matching(OIM)損失來監督ReID任務的訓練過程。

具體而言,OIM將所有帶標籤個體的特徵中心存儲在一個查找表(Lookup Table,簡稱LUT)中,其中L代表特徵個數、D代表特徵維度。同時,維護一個循環隊列(Circular Queue),其包含了Q個無標籤個體的特徵。在每次迭代過程中,給定標籤為i的輸入特徵x,OIM分別將x與查找表和循環隊列中的所有特徵計算相似度,這樣可得到x屬於標籤i的概率pi。

本文發現,儘管OIM能夠有效地利用帶標籤和無標籤樣本,但還是具有下面兩個局限性:1)相似度計算只局限在輸入特徵與查找表或循環隊列之間,輸入特徵之間並沒有任何相似度計算操作。2)對數似然損失並沒有給出特徵對之間的明確距離度量。

 

圖片

 

為此,提出了一種三元組損失(Triplet Loss)來進一步增強OIM損失。對於輸入圖像中的每個行人,首先採用中心採樣(Center Sampling)策略對特徵進行採樣。這樣,每個人中心附近的特徵被認為是正樣本,這裡目標是拉近同一個人採樣到的不同特徵,將不同人的特徵盡量分開。

與此同時,帶標籤個體採樣到的不同特徵也應與查找表中相應的個體中心特徵相接近,與查找表中不同個體的中心特徵相遠離。虛線框中展示的就是根據上述策略構建得到的三元組。

圖片

其中M代表正負樣本間的邊界大小,Dpos和Dneg分別代表正、負樣本對之間的歐氏距離。最後,本文所提出的TOIM損失即為OIM和三元組損失函數的簡單疊加。

 

Conclusion

AlignPS在CUHK-SYSU上比baseline anchor-free模型提高了20%的mAP。且以更快的速度超過了two-stages 的SOTA。

圖片

本文來源於公眾號CV技術指南的技術總結系列,更多相關技術總結請掃描文末二維碼關注公眾號。

公眾號其它技術總結內容

深度學習前人的精度很高了如何創新?

特徵金字塔技術總結

CV方向的高效閱讀英文文獻方法總結

數據增強方法總結

CNN結構演變總結(一)經典模型

CNN結構演變總結(二)輕量化模型

CNN結構演變總結(三)設計原則

CNN可視化技術總結(一)-特徵圖可視化

CNN可視化技術總結(二)–卷積核可視化

CNN可視化技術總結(三)–類可視化

CNN可視化技術總結(四)–可視化工具與項目

池化技術總結

NMS總結