ECCV18 Oral | MIT&Google影片運動放大讓電腦輔助人眼「明察秋毫」
- 2019 年 12 月 27 日
- 筆記
本文來自ECCV 2018 選為Oral的論文《Learning-based Video Motion Magnification》,程式碼已開源,作者資訊:

什麼是影片運動放大技術? 影片運動放大技術是一種從影片到影片的濾波處理,可以使我們能夠看到在影片中肉眼看不到的小的運動,例如振動飛機機翼的動作,或者在風的影響下搖擺的建築物等。這在衡量建築物的結構健康程度和醫療環境中人體生命訊號檢測中有非常重要的應用。 由於這種運動往往很小,因此放大後的效果容易產生噪音或過度模糊。現有技術使用手工設計的濾波器來提取運動表示,往往不是最佳的。
在本文中,試圖直接使用深度卷積神經網路從已有樣本中學習濾波器。為了方便訓練,該文仔細設計了一個人工合成的數據集,該數據集可以很好地捕捉影片中小的運動,用兩幀影像作為輸入就可以訓練。 本文是第一個使用卷積神經網路在人工合成數據上學習運動放大濾波器的工作,實驗證明經過學習得到的過濾器在真實影片上與之前的方法相比獲得更高品質的視覺效果,明顯減少了振鈴偽像和雜訊放大。

上圖中原始影片的局部區域被截取出來,紅色代表的是被放大的取樣區域,波浪條紋代表著被放大的運動,原始影像看不出運動,中間的能看出波浪狀的變形但有很明顯的偽影,而右邊使用本文方法的結果不僅波浪狀變形被發現而且大大減少了偽影。

這是一個高速運動物體的例子,請看原始幀紅色取樣區域(請注意它非物體運動區域,不應該有運動)對應的演算法處理結果,之前的方法出現了明顯的偽影,而該文的方法則較好的保留了靜止狀態。
網路架構

數據合成方法 使用MSCOCO數據集中的200000幅影像做前景,使用PASCAL VOC數據集中7000個分割出的目標做背景,按照一定的運動係數、尺度係數等直接合成運動模擬影像。
處理結果示例:


論文:
https://arxiv.org/abs/1804.02684 程式碼已經開源:
https://github.com/12dmodel/deep_motion_mag