­

基於運動的視頻插幀技術

  • 2020 年 1 月 14 日
  • 筆記

本文是來自AOMedia Symposium 2019的演講,主要內容是基於運動的視頻插幀技術(Motion Based Video Frame Interpolation),演講內容來自YouTube/Google轉碼小組技術主管,同時也是都柏林聖三一大學教授的Anil Kokaram。演講中,Kokaram對用於視頻插幀工作的各類模型預測及其效果進行了分析,指出了對運動信息的處理仍是當前各類算法的基礎。

Kokaram首先對視頻插幀技術的背景、目標進行了介紹,並以單幀插值為例解釋了幀插值實際上就是運動插值的過程。同時對近年出現的基於卷積神經網絡的方法進行了分析,事實上使用CNN獲取圖像光流同樣是為運動插值過程服務。

Kokaram接着提出了他們項目組的方法。根據樸素貝葉斯的想法,要從觀察到的圖像與運動中得到缺失的圖像與運動,可以先從觀察到的運動中得到缺失的運動,並從缺失的運動還原缺失的圖像。根據能量最小化的原理,在動作插值工作中,我們估計現有運動,測量運動能量、遮擋能量和圖像能量,然後以最小化局部能量對運動進行選擇。獲取運動後接着進行圖片插值工作,使用遮擋生成插值圖片並進行後處理。通過Adobe240fps數據集上的測試與排名,使用MRF模型的Kronos方法仍是目前最好的方法之一。

Kokaram最後對演講進行了總結,

  • 超幀至60fps是一個重點
  • 基於CNNs的方法與基於MRF運動插值的方法相比,在插幀工作中效率基本相同或稍差
  • 但所有成功的方法都明確地使用了運動
  • 如果你對運動的處理失敗,那你將無法完成工作
  • 混合使用MRF+CNN/3DAR方法可能會是未來研究的方向。

附上演講視頻:

http://mpvideo.qpic.cn/0bf2a4aaaaaagyaaavatg5pfab6daadqaaaa.f10002.mp4?dis_k=559304025fb3912ee4ee61121f70729b&dis_t=1578993703