腾讯优图提出LCVR-MQVI算法,勇夺NTIRE 2021双赛道冠亚军
2021 年 4 月 15 日
AI
智能视频理解
近日,在NTIRE 2021比赛上,腾讯优图提出的LCVR-MQVI算法 在Video Super-Resolution: Track 2 Spatial-Temporal赛道和Track 1 Spatial赛道上分别获得了冠军和亚军的成绩。
NTIRE比赛是图像与视频增强领域的权威比赛,由ETH Zurich(苏黎世联邦理工学院)的Computer Vision Laboratory组织,与CVPR2021共同举办。
这次腾讯优图同时参与了视频空间超分 (video spatial super-resolution)和时空超分 (video spatial-temporal super-resolution)两个赛道。其中,相比于传统的单图超分或者视频插帧,视频的时空超分可以同时提升视频的分辨率和帧率,带来更好的观看体验,因此也更具有实用价值,吸引了包括百度、字节跳动、旷视、华为等公司以及南洋理工、北大、上海交大、复旦等知名高校的参与。
针对本次比赛需要同时提升视频的分辨率和帧率的要求,通过大量的对比实验,最终我们确定了先超分后插帧的两阶段技术框架LCVR-MQVI 。整体的框架如图1(d)所示,对于输入的低分辨率低帧率视频,我们首先通过提出的双向对齐超分网络LCVR进行超分,然后将超分后的图片送入改进的多尺度插帧网络MQVI进行插帧。下面我们分别对两部分的创新点进行介绍。
我们提出了一种新的超分辨率框架LCVR (Local to Context Video Super-Resolution),相比于其他单图超分以及视频超分框架,我们的LCVR可以更好地利用视频中的过去和未来的信息辅助当前帧的超分 。具体来说,我们的方法有如下改进:
我们提出了一种新的插帧框架MQVI (Multi-Level Quadratic Video Interpolation)。相比于大多数现有的基于线性假设估计中间帧光流状态的模型,我们的模型基于匀加速运动估计中间帧光流,因此可以更好地对真实世界中物体的运动进行拟合 。同时,我们在QVI的基础上引入了coarse-to-fine的思想,通过多尺度网络对初识的预测结果进行不断的微调以实现更好的预测。具体来说,我们的MQVI相比于原始的QVI有以下的改进:
对于时空超分任务(track 2),我们提出的方法在比赛的测试集上取得了27.68dB的PSNR ,领先第二名0.29dB,在空间超分任务上(track 1),我们提出的方法也取得了32.96dB 的成绩,领先第三名0.29dB。
下面我们也对比赛测试集上的部分结果进行可视化,首先图3展示了LCVR的空间超分能力,其中左边为原始输入通过bicubic的方式进行上采样,右边则为我们的LCVR算法超分的结果。可以看到我们的方法由于可以利用视频的过去和未来的信息,得到了更加清晰的超分结果 。
图3 Bicubic上采样与LCVR空间超分效果对比
图5则展示了LCVR-MQVI模型在时空超分联合任务上的效果。相比于图4,我们的算法可以同时提高视频的分辨率和帧率 。
图4 LCVR-MQVI时空超分输入(插值放大播放效果)
随着互联网的蓬勃发展,视频已经成为越来越多人获取资讯以及娱乐的方式。 而短视频的出现让越来越多的人可以即时分享自己创作的内容。然而由于个人创作者创作设备还有方法的不专业以及大量早期生产的影视作品,互联网上存在着大量的低分辨率、低帧率的视频,影响着人们的观看体验。因此如果能通过自动化的算法将这些低质量的视频转换为高质量的视频具有重要的现实意义。