基於運動的視頻插幀技術 - ⎝⎛CodingNote.cc ⎞⎠

基於運動的視頻插幀技術

2020 年 1 月 14 日
筆記

本文是來自AOMedia Symposium 2019的演講，主要內容是基於運動的視頻插幀技術（Motion Based Video Frame Interpolation），演講內容來自YouTube/Google轉碼小組技術主管，同時也是都柏林聖三一大學教授的Anil Kokaram。演講中，Kokaram對用於視頻插幀工作的各類模型預測及其效果進行了分析，指出了對運動信息的處理仍是當前各類算法的基礎。

Kokaram首先對視頻插幀技術的背景、目標進行了介紹，並以單幀插值為例解釋了幀插值實際上就是運動插值的過程。同時對近年出現的基於卷積神經網絡的方法進行了分析，事實上使用CNN獲取圖像光流同樣是為運動插值過程服務。

Kokaram接着提出了他們項目組的方法。根據樸素貝葉斯的想法，要從觀察到的圖像與運動中得到缺失的圖像與運動，可以先從觀察到的運動中得到缺失的運動，並從缺失的運動還原缺失的圖像。根據能量最小化的原理，在動作插值工作中，我們估計現有運動，測量運動能量、遮擋能量和圖像能量，然後以最小化局部能量對運動進行選擇。獲取運動後接着進行圖片插值工作，使用遮擋生成插值圖片並進行後處理。通過Adobe240fps數據集上的測試與排名，使用MRF模型的Kronos方法仍是目前最好的方法之一。

Kokaram最後對演講進行了總結，

超幀至60fps是一個重點
基於CNNs的方法與基於MRF運動插值的方法相比，在插幀工作中效率基本相同或稍差
但所有成功的方法都明確地使用了運動
如果你對運動的處理失敗，那你將無法完成工作
混合使用MRF+CNN/3DAR方法可能會是未來研究的方向。

附上演講視頻：

http://mpvideo.qpic.cn/0bf2a4aaaaaagyaaavatg5pfab6daadqaaaa.f10002.mp4?dis_k=559304025fb3912ee4ee61121f70729b&dis_t=1578993703

Previous post

鹹魚的 GitHub 情報 | 20191229 期

Next post

基於模型的率失真優化變換