論文解析丨基於BSN演算法改進的動作時序檢測BMN演算法論文解析
編者按
隨著互聯網影片數量的快速增長,影片內容分析方法受到了學術界和業界的廣泛關注。時間動作檢測是影片內容分析領域的一項重要任務,其目的是在既有動作類別又有時間邊界的未裁剪長影片中定位動作實例。與目標檢測類似,時間動作檢測方法可以分為兩個階段:時間動作提議生成和動作分類。雖然動作識別方法可以達到令人信服的分類精度,但在主流基準中檢測性能仍然較低[14,5]。因此,許多最近的方法都致力於提高時序動作提名的品質。
BMN: Boundary-Matching Network for Temporal Action Proposal Generation
1. Introduction
為了提高提名的品質,提名生成方法應該:(1)生成時間靈活、邊界精確的時間提案,精確、詳盡地覆蓋ground – truth action實例;(2)生成可靠的置信度分數,使提名可以被正確檢索。
現有的大多數提案生成方法[3,4,8,23]採用「自上而下」的方式,在規則的間隔內生成具有多尺度時間滑動窗口的提名,然後分別或同時評估提案的置信度得分。這些方法的主要缺點是生成的建議通常在時間上不夠精確,或者不夠靈活,不能涵蓋持續時間不同的真實行動實例。
最近,邊界敏感網路(BSN)[17]採用了「自底向上」的方式生成提名,分為兩個階段:(1)定位時間邊界並將邊界合併為提案;(2)利用構造的提案特徵評估每個提名的可信度得分。通過利用局部線索,BSN可以生成比現有的自上而下方法更精確的邊界和更靈活的時間。
但BSN存在三個主要缺陷:
(1)對每個提名分別進行提名特徵構建和置信度評估程式,導致效率低下;
(2) BSN中構造的proposal feature過於簡單,無法捕捉足夠的時間上下文;
(3) BSN是多階段的,但不是一個統一的框架。
我們能否在豐富的背景下同時評估所有提名的可信度?自上而下的方法[18,2]可以通過錨定機制輕鬆實現這一點,錨定機制將提案預先定義為非連續的分散式錨。但是,由於提名的邊界和期限要靈活得多,錨定機制不適合BSN等自下而上的方法。
圖 1:我們方法的概述。給定一個未裁剪的影片,BMN可以同時生成(1)邊界概率序列來構造建議,(2)邊界匹配置信圖來密集評估所有建議的置信度。
為了提高提名的品質,提名生成方法應該:
(1)生成時間靈活、邊界精確的時間提案,精確、詳盡地覆蓋ground – truth action實例;
(2)生成可靠的置信度分數,使提名可以被正確檢索。
現有的大多數提案生成方法[3,4,8,23]採用「自上而下」的方式,在規則的間隔內生成具有多尺度時間滑動窗口的提名,然後分別或同時評估提案的置信度得分。這些方法的主要缺點是生成的建議通常在時間上不夠精確,或者不夠靈活,不能涵蓋持續時間不同的真實行動實例。最近,邊界敏感網路(BSN)[17]採用了「自底向上」的方式生成提名,分為兩個階段:
(1)定位時間邊界並將邊界合併為提案;
(2)利用構造的提案特徵評估每個提名的可信度得分。
通過利用局部線索,BSN可以生成比現有的自上而下方法更精確的邊界和更靈活的時間。但BSN存在三個主要缺陷:
(1)對每個提名分別進行提名特徵構建和置信度評估程式,導致效率低下;
(2) BSN中構造的proposal feature過於簡單,無法捕捉足夠的時間上下文;
(3) BSN是多階段的,但不是一個統一的框架。
我們能否在豐富的背景下同時評估所有提名的可信度?自上而下的方法[18,2]可以通過錨定機制輕鬆實現這一點,錨定機制將提案預先定義為非連續的分散式錨。但是,由於提名的邊界和期限要靈活得多,錨定機制不適合BSN等自下而上的方法。為了解決這些困難,我們提出了邊界匹配(BM)機制來評估密集分布的提議的置信度。在BM機制中,將一個提名表示為其起始邊界和結束邊界的一對匹配對,然後將所有的BM對組合為一個二維BM置信圖,以表示密集分布且起始邊界和時間持續時間連續的提議。因此,我們可以通過BM置信度圖同時生成所有提名的置信度得分。提出了一種基於時間特徵序列生成BM特徵圖的BM層,利用一系列的卷積層從BM特徵圖獲得BM置信度圖。BM特徵圖包含了每個提名的豐富特徵和時間上下文,並為開發相鄰提案的上下文提供了潛力。總之,我們的工作有三個主要貢獻:
-
我們引入了邊界匹配機制來評估分布密集的建議的置信度,該機制可以很容易地嵌入到網路中。
-
我們提出了一種高效、有效、端到端的時間動作提議生成方法——邊界匹配網路(BMN)。在BMN的兩個分支中同時生成時間邊界概率序列和BM置信圖,並將其聯合訓練成統一的框架。
-
大量的實驗表明,與目前最先進的方法相比,BMN可以獲得明顯更好的提議生成性能,具有顯著的效率、良好的泛化性和較好的時間動作檢測任務性能。
2. Related Work
2.1 行為識別
動作識別是影片理解領域的一項基本而重要的任務。手工製作的特徵如HOG、HOF和MBH在早期的著作中被廣泛使用,如improved Dense Trajectory (iDT)[29,30]。近年來,深度學習模型在動作識別任務中取得了顯著的性能提升。主流網路分為兩類:雙流網路[9,24,32]分別利用RGB影像和堆疊光流的外觀和運動線索;3D網路[27,21]直接從原始影片量中利用外觀和運動線索。在我們的工作中,我們按照慣例,採用動作識別模型來提取未裁剪影片的視覺特徵序列。
2.2 相關匹配
相關匹配演算法廣泛應用於影像配准、動作識別和立體匹配等電腦視覺任務中。立體匹配是指從立體影像中找到相應的像素點。對於矯正後的影像對左影像中的每個像素,立體匹配方法需要沿水平方向在右影像中找到相應的像素,或者說以最小的代價找到右像素。因此,所有左像素的最小成本可以表示為成本體積,表示每個左像素對作為體積上的一個點。在cost volume的基礎上,近年來的許多著作[26,20,16]採用相關層[20]或特徵拼接[6],通過結合兩個特徵映射直接生成cost volume來實現端到端網路。受cost volume的啟發,我們提出的BM置信度圖包含一對時間開始和結束邊界作為提名,因此可以使用卷積層直接為所有提名生成置信度得分。提出了一種BM層演算法,通過對每個方案的起始邊界和結束邊界進行取樣,有效地生成BM特徵圖。
2.3 時序動作提名
如前所述,時序動作檢測任務的目標是檢測未修剪影片中具有時間邊界和動作類別的動作實例,分為時間提議生成和動作分類兩個階段。這兩個階段在大多數檢測方法中被分開[23,25,35],在一些方法中被合併為單一模型[18,2]。對於提名生成任務,以往的作品[3,4,8,12,23]大多採用自頂向下的方式生成具有預定義時間和時間間隔的提案,其主要缺點是缺乏邊界精度和時間靈活性。也有一些方法[35,17]採用自下而上的方式。標籤[35]使用時間分水嶺演算法生成建議,但缺乏檢索的置信度。近年來,BSN[17]通過局部定位時間邊界和全局評估置信度來生成建議,與以前的建議生成方法相比,取得了顯著的性能提升。在這項工作中,我們提出了邊界匹配機制來評估提議的可信度,這大大簡化了BSN的流程,並在效率和有效性方面帶來了顯著的提升。
圖2。BM置信圖圖解。同一行中的提案具有相同的時間持續時間,同一列中的提案具有相同的開始時間。由於右下角建議的結束邊界超出了影片的範圍,所以在訓練和推理時不考慮這些建議。
3. Our Approach
3.1 問題公式化
圖3 BM層圖。對於每個提名,我們在取樣權值和時間特徵序列之間進行T維點積,生成形狀為C×N的BM特徵。
3.4 邊界匹配網路
與BSN[17]的多級框架不同,BMN同時生成局部邊界概率序列和全局建議置信度圖,同時在統一框架下對整個模型進行訓練。
如圖4所示,BMN模型包含三個模組:
表1。BMN的詳細架構,其中基本模組的輸出特徵序列由時間評估和提案評估模組共享。T和D分別為輸入特徵序列長度和最大提案持續時間。
時序評估模組(TEM)
TEM 的目標是評估未裁剪影片中所有時間點的起始和結束概率,這些邊界概率序列用於在後處理過程中產生提名。
提案評估模組(PEM)。
PEM的目標是生成邊界匹配(BM)置信度圖,該置信度圖包含對分布密集的提名的置信度值。為此,PEM包含BM層和一系列的3d、2d卷積層。如3.3節所述,BM層通過S與取樣掩碼權值W在時間維度上的矩陣點積,將時間特徵序列S轉移到BM特徵映射 M_F。
在生成BM feature map M_F後,我們首先在樣本維數上進行conv3d1層,將維數長度從N減少到1,將隱藏單位從128增加到512。
然後,我們引入了conv2d1層和conv2d2層,其中conv2d層採用1×1核來減少隱含單元,conv2d2層採用3×3核來捕獲相鄰建議的上下文。
最後,我們通過sigmoid激活生成了兩種BM置信映射M_CC,M_CR∈R^{D×T} M ,其中M_{CC}和M_{CR} 分別使用二元分類和回歸損失函數進行訓練。
5. Conclusion
在本文中,我們引入了邊界匹配機制來評估分布密集的建議的置信度,該機制是通過將建議表示為BM對,並將所有建議組合為BM置信度映射來實現的。同時,我們提出了邊界匹配網路(Boundary-Matching Network, BMN),用於有效和高效地生成時間動作提議,BMN通過結合高概率邊界生成具有精確邊界和靈活時間的提議,同時基於BM機製為所有提議生成可靠的置信度分數。大量實驗表明,無論是在提議生成還是時間動作檢測任務上,BMN都優於其他最先進的提議生成方法,具有顯著的效率和通用性。