ICCV2021 | 漸進取樣式Vision Transformer
前言
ViT通過簡單地將影像分割成固定長度的tokens,並使用transformer來學習這些tokens之間的關係。tokens化可能會破壞對象結構,將網格分配給背景等不感興趣的區域,並引入干擾訊號。
為了緩解上述問題,本文提出了一種迭代漸進取樣策略來定位區分區域。在每次迭代中,當前取樣步驟的嵌入被饋送到transformer編碼層,並預測一組取樣偏移量以更新下一步的取樣位置。漸進抽樣是可微的。當與視覺transformer相結合時,獲得的PS-ViT網路可以自適應地學習到哪裡去看。
PS-ViT既有效又高效。在ImageNet上從頭開始訓練時,PS-VIT的TOP-1準確率比普通VIT高3.8%,參數減少了大約4倍,FLOP減少了10倍。
本文來自公眾號CV技術指南的
關注公眾號CV技術指南 ,專註於電腦視覺的技術總結、最新技術跟蹤、經典論文解讀。
論文:Vision Transformer with Progressive Sampling
程式碼://github.com/yuexy/PS-ViT
Background
transformer最初是為處理中等大小的序列而量身定做的,並且具有二次計算複雜度。序列長度。它們不能直接用於處理具有大量像素的影像。
為了克服計算複雜性問題,ViT採用了一種樸素的標記化(tokenization)方案,該方案將一幅影像分割成一系列規則間隔的patches,這些patches被線性投影到tokens中。通過這種方式,影像被轉換成數百個視覺tokens,這些視覺tokens被饋送到transformer編碼層的堆棧中進行分類。ViT取得了很好的效果,特別是在大規模數據集上進行了預訓練,這證明了全transformer結構是一種很有前途的視覺任務替代方案。然而,這種tokens化方案的局限性是顯而易見的。
首先,硬分割可能會分離出一些高度相關的區域,這些區域應該用同一組參數建模,這破壞了固有的對象結構,並使輸入patches的資訊量變得較少。圖顯示貓頭被分成幾個部分,導致僅基於一個部分的識別挑戰。其次,tokens被放置在規則網格上,而與底層影像內容無關。圖顯示,大多數網格聚焦在不感興趣的背景上,這可能導致感興趣的前景對象淹沒在干擾訊號中。
創新思路
人類視覺系統以一種完全不同的方式組織視覺資訊,而不是一次不加區別地處理整個場景。取而代之的是,它循序漸進地、選擇性地將注意力集中在視覺空間的有趣部分,無論何時何地需要它,而忽略不感興趣的部分,隨著時間的推移,結合來自不同注視的資訊來理解場景。
受上述過程的啟發,論文提出了一種新的基於transformer的漸進取樣(Progressive Sampling)模組,該模組能夠學習從哪裡看影像,以緩解ViT中簡單的tokens化方案帶來的問題。
論文提出的模組不是從固定位置取樣,而是以迭代的方式更新取樣位置。如圖所示,在每次迭代中,當前取樣步驟的tokens被饋送到transformer編碼層,並預測一組取樣偏移量以更新下一步的取樣位置。該機制利用transformer的能力來捕獲全局資訊,通過結合本地上下文和當前tokens的位置來估計對感興趣區域的偏移量。這樣,注意力就會像人類視覺一樣,一步一步地集中到影像的可辨別區域。
Methods
Progressive Sampling
ViT規則地將一幅影像分成16×16塊,這些塊被線性投影到一組標記中,而不考慮影像區域的內容重要性和對象的整體結構。為了更好地關注影像的感興趣區域,減輕影像結構破壞的問題,提出了一種新的漸進式取樣模型。由於它的可微性,它是通過後續基於vision transformer的影像分類任務自適應驅動的。
漸進式取樣模組的體系結構
在每個迭代中,給定取樣位置Pt和特徵映射F,對初始Tokens T’t和特徵映射F進行取樣,並將其與基於pt生成的位置編碼Pt和上一次迭代的輸出Tokens Tt−1進行元素級相加,然後送入一個編碼層來預測當前迭代的Tokens Tt.。通過一個基於Tt的全連接層預測偏移量矩陣,將Tt與Pt相加,得到下一次迭代的取樣位置Pt+1。上面的過程迭代了N次。
在每次迭代中,通過將取樣位置與上次迭代的偏移向量相加來更新取樣位置。Pt+1 = Pt + Ot, 其中Ot表示在迭代t處預測的取樣位置矩陣和偏移矩陣。對於第一次迭代,我們將p1初始i化為規則間隔的位置,就像在ViT中所做的那樣。具體地說,第i個位置由
其中π和π將位置索引分別映射到行索引和列索引。Sh和Sw分別為其軸向和軸向的步長。然後在輸入特徵圖的取樣位置對初始tokens進行取樣,如下所示
由於Pt的元素是小數,所以取樣是通過雙線性插值運算來實現的,該運算是可微的。輸入特徵圖F和取樣位置Pt。初始取樣tokens、上次迭代的輸出tokens和當前取樣位置的位置編碼在被饋送到一個編碼層以獲得當前迭代的輸出tokens之前,被進一步以元素方式相加。
將取樣位置的歸一化絕對坐標投影到一個嵌入空間作為位置嵌入。最後,預測除上一次迭代之外的下一次迭代的取樣位置偏移量,如下所示
其中Mt是用於預測取樣偏移矩陣的可學習線性變換。
Overall Architecture
漸進式取樣Vision Transformer(PS-VIT)的總體架構
在給定輸入影像的情況下,首先提取其特徵圖F。然後,在漸進式取樣模組中的自適應位置pi處,對tokens Ti進行漸進式和迭代式取樣。漸進取樣模組的最終輸出tokens TN被填充分類tokens Tcls,並進一步饋送到vision tranformer模組以細化Tcls,最終在分類模組中進行分類。
Conclusion
論文提出的漸進式取樣是可區分的,並且可以很容易地插入ViT而不是硬分裂,以構建端到端的vision transformer,並使用稱為PSViT的漸進式取樣網路來構建端到端的vision transformer。由於任務驅動的訓練,PS-ViT傾向於對與語義結構相關的對象區域進行取樣。此外,與簡單的tokens化相比,它更關注前景對象,而對模糊背景的關注較少。
1. 當在ImageNet上從頭開始訓練時,提出的PS-VIT優於當前基於transformer的SOTA方法。具體地說,它在ImageNet上達到了82.3%的TOP1準確率,在只有Deit約1/4參數和1/2 FLOP的情況下,準確率比Deit更高。如圖所示,論文觀察到,與基於transformer的SOTA網路ViT和Deit相比,PS-ViT明顯更好、更快、參數效率更高。
2. 與其他SOTA 的對比
3.比較PS-VIT和SOTA網路在FLOP和速度方面的效率。
4. 漸進式取樣模組中抽樣位置的可視化。箭頭的起點是初始取樣位置(P1),而箭頭的終點是最終取樣位置(P4)。
歡迎關注公眾號 CV技術指南 ,專註於電腦視覺的技術總結、最新技術跟蹤、經典論文解讀。
在公眾號中回復關鍵字 「入門指南「可獲取電腦視覺入門所有必備資料。
其它文章