R-C3D 影片活動檢測的經典演算法
- 2019 年 10 月 4 日
- 筆記

主要貢獻
1)論文提出了活動檢測模型,即R-C3D,這是一種端到端活動檢測模型,結合活動建議和分類階段,可以檢測任意長度的活動。
2)通過在建議生成(proposal generation)和網路分類部分之間共享全卷積的C3D特性,實現快速檢測速度(比當前方法快5倍);
3)對三個不同的活動檢測數據集進行了大量的評估,證實了該文提出的模型具有普遍適用性。
存在問題
連續影片中的活動檢測是一個具有挑戰性的問題,不僅需要識別,還需要及時準確地定位活動。當前存在的方法在處理連續影片流的活動檢測時,存在以下問題:
1)這些現成的表示可能不適合在不同影片域中進行定位活動,從而導致性能的地下。
2)現有方法依賴外部建議或全面的滑動窗口,導致計算效率地下。
3)滑動窗口無法輕鬆的預測靈活的活動邊界。
基本思想

受目標檢測方法FasterR-CNN的啟發,論文中提出了一種區域卷積3D網路(RegionConvolutional 3D Network,R-C3D)如上圖,該方法先進行3D全卷積網路對影片幀進行編碼處理,之後提取活動時序片段(actionproposal segments),最後在分類子網路(action classificationsubnet)並對結果進行分類和細化。
論文細節
該網路可以用於連續影片流中進行活動檢測。其網路結構圖如下,由3各部分組成,共享的3D ConvNet特徵提取器,時間建議階段(temporalproposal stage)以及活動分類和細化階段。

為了實現高效的計算和端到端訓練,建議和分類子網共享C3D特徵映射。這裡的一個關鍵創新是將Faster R-CNN中的2D RoI pooling擴展到3D RoI pooling,這樣做的好處就是,該文的模型能夠提取各種解析度的可變長度建議框的特徵。
論文中通過共同優化兩個子網的分類和回歸任務來訓練網路,Softmax損失函數用於分類,平滑L1損失函數用於回歸,所以本文的目標函數結合兩部分損失函數為:

上式中N_{cls}和N_{reg}分別代表批量大小和anchor/proposal段的數量,lambda為損失權值參數,設置為1,t_i={delta hat{c}_i, delta hat{l}_i}表示anchor或proposals的預測相對偏移量,t_{i}^{*}={delta c_i,delta l_i}表示anchor或proposals的ground truth的坐標變換。其變換如下:

實驗結果
Experimentson THUMOS'14

Table1是在THUMOS'14上的活動檢測結果。在表1中作者在IoU閾值0.1~0.5(表示為a)上對當前存在的方法和R-C3D進行活動檢測性能的評估比較。在單向緩衝設置(one-way buffer)的R-C3D,其[email protected]為27.0%比當前最先進方法高3.7%。雙向緩衝設置(two-waybuffer)的R-C3D的mAP在所有IoU閾值下都有了提高,其中[email protected]達到28.9%。

Table2展示了R-C3D與其他方法在數據集THUMOS'14上的每一類的AP(Average Precision)。表中可以看出R-C3D在大多數類別中的AP優於其他方法,在一些活動中甚至超過了20%,比如Basketball Dunk, Cliff Diving等。圖(a)顯示了在數據集THUMOS'14上的兩個影片的定性結果。

Experimentson ActivityNet

表3是在數據集ActivityNet上的檢測結果。表3.活動網上的檢測結果,以[email protected](百分比)表示。 從表中可以看出,R-C3D方法在驗證集和測試集上分別優於UPC4.3%和4.5%(在[email protected]下)。當訓練集和驗證集都用來訓練時,R-C3D方法的檢測結果要比只用訓練集訓練時高1.6%。
圖(b)展示了R-C3D在數據集ActivityNet中具有代表性的結果。

Experimentson Charades
表4是關於在數據集Charades上的活動檢測結果。如表4所示,該文的模型優於文獻25中提出的非同步時域模型以及在該文章中報告的不同基準線。

按照標準做法,論文中按照[email protected]評估了模型,結果為9.3%,性能與在其他數據集中測試的性能結果不同。這個原因可能是數據集Charades固有的問題,比如室內場景光照強度低,或者數據的標籤過多等。
圖(c)展示了R-C3D在數據集Charades中具有代表性的結果。

結論
引入了R-C3D模型,用來活動檢測的第一個端對端時間建議分類網路;
在3個大規模的數據集中對該文提出的方法進行了評估,結果展示該文的方法比當前基於3D卷積的模型更快且更準確;
R-C3D還可以假如其他一些特性,以進一步提高活動檢測結果。
論文地址:https://arxiv.org/pdf/1703.07814.pdf
程式碼地址:http://ai.bu.edu/r-c3d/
註:本篇解讀文章是作者RoseVam發表於我愛電腦視覺

https://ask.qcloudimg.com/draft/6237381/9nwm8gyafp.png?imageView2/2/w/1620