Non-local Network：人類早期在CV馴服Transformer嘗試 | CVPR 2018

Non-local操作是早期self-attention在視覺任務上的嘗試，核心在於依照相似度加權其它特徵對當前特徵進行增強，實現方式十分簡潔，為後續的很多相關研究提供了參考

來源：曉飛的算法工程筆記公眾號

論文: Non-local Neural Networks

論文地址：//arxiv.org/abs/1711.07971
論文代碼：//github.com/facebookresearch/video-nonlocal-net

Introduction

卷積操作通常在局部區域進行特徵提取，想要獲取範圍更廣的特徵信息需要重複進行卷積操作來獲得，這樣不僅耗時還增加了訓練難度。為此，論文提出高效的non-local操作，將特徵圖上的特徵點表示為所有特徵點的加權和，用於捕捉覆蓋範圍更廣的特徵信息。non-local操作也可以用於含時序的任務中，如圖1的視頻分類任務，可綜合幾幀的特徵來增強當前幀的特徵。
non-local操作主要有以下優點：

相對於疊加卷積的操作，non-local可通過特徵點間的交互直接捕捉更廣的特徵信息。
從實驗結果來看，簡單地嵌入幾層non-local操作就能高效地提升網絡性能。
non-local操作支持可變輸入，可很好地與其它網絡算子配合。

Non-local Neural Networks

Formulation

首先定義通用的non-local操作：

i為特徵圖上將要計算特徵值的位置坐標，j為特徵圖上的所有位置坐標，x為對應位置上的輸入特徵，y為增強後的輸出，f計算i和j之間的相似性，g則用於對j的特徵進行轉化，\mathcal{C}用於對輸出進行歸一化。
簡而言之，non-local的核心就是計算當前位置的特徵與特徵圖所有特徵間的相似性，然後根據相似性對所有特徵加權輸出。相對於卷積和全連接等參數固定的操作，non-local更加靈活。