基於運動的視頻插幀技術
- 2020 年 1 月 14 日
- 筆記
本文是來自AOMedia Symposium 2019的演講,主要內容是基於運動的視頻插幀技術(Motion Based Video Frame Interpolation),演講內容來自YouTube/Google轉碼小組技術主管,同時也是都柏林聖三一大學教授的Anil Kokaram。演講中,Kokaram對用於視頻插幀工作的各類模型預測及其效果進行了分析,指出了對運動信息的處理仍是當前各類算法的基礎。
Kokaram首先對視頻插幀技術的背景、目標進行了介紹,並以單幀插值為例解釋了幀插值實際上就是運動插值的過程。同時對近年出現的基於卷積神經網絡的方法進行了分析,事實上使用CNN獲取圖像光流同樣是為運動插值過程服務。
Kokaram接着提出了他們項目組的方法。根據樸素貝葉斯的想法,要從觀察到的圖像與運動中得到缺失的圖像與運動,可以先從觀察到的運動中得到缺失的運動,並從缺失的運動還原缺失的圖像。根據能量最小化的原理,在動作插值工作中,我們估計現有運動,測量運動能量、遮擋能量和圖像能量,然後以最小化局部能量對運動進行選擇。獲取運動後接着進行圖片插值工作,使用遮擋生成插值圖片並進行後處理。通過Adobe240fps數據集上的測試與排名,使用MRF模型的Kronos方法仍是目前最好的方法之一。
Kokaram最後對演講進行了總結,
- 超幀至60fps是一個重點
- 基於CNNs的方法與基於MRF運動插值的方法相比,在插幀工作中效率基本相同或稍差
- 但所有成功的方法都明確地使用了運動
- 如果你對運動的處理失敗,那你將無法完成工作
- 混合使用MRF+CNN/3DAR方法可能會是未來研究的方向。
附上演講視頻:
http://mpvideo.qpic.cn/0bf2a4aaaaaagyaaavatg5pfab6daadqaaaa.f10002.mp4?dis_k=559304025fb3912ee4ee61121f70729b&dis_t=1578993703