拥抱智能，AI 视频编码技术的新探索

2021 年 11 月 16 日
AI
三维模型, 人脸检测, 人脸识别, 光学字符识别, 分类与分割, 图像描述, 图像检索, 图像生成, 图像识别, 图像语义分割, 智能视频理解, 目标检测, 行人检测, 行人重识别, 视觉显著性, 计算机硬件, 超分辨率

随着视频与交互在日常生活中的作用日益突显，愈发多样的视频场景与不断提高的视觉追求对视频编码提出更高的挑战。相较于人们手工设计的多种视频编码技术，AI 编码可以从大数据中自我学习到更广泛的信号内在编码规律。工业界与学术界发力推动 AI 视频编码标准并进行新框架的探索。

阿里云视频云在 JVET 面向人眼的视频编码标准和 MPEG 面向机器视觉的视频编码标准上均做出重要贡献，对标准发展产生强有力的推动。结合产业需求强劲的视频会议、视频直播等场景，阿里云视频云还开发了 AI 生成式压缩系统，在同等质量下比 VVC 节省 2-3 倍码率，实现真正的超低码率视频通信。

在 LiveVideoStackCon 2021 北京峰会，阿里云智能视频云算法专家王钊，为大家解读阿里云在 AI 视频编码技术的新探索。

文 | 王钊

整理 | LiveVideoStack

大家好，我是王钊，就职于阿里云视频云，今天的分享主题是 “拥抱智能，AI 视频编码技术的新探索”。主要想和大家介绍阿里云视频云的两个前沿工作。

分享包括四部分，背景与动机、人物视频生成编码、机器视觉编码和未来展望。

1. 背景与动机

我将从人眼视觉、机器视觉两方面延伸介绍阿里云视频云探索 AI 视频编码技术的背景与动机。

视频本身的数据量非常大，一张 4K 图像原始大小为 24.3MB、4K 未压缩视频的带宽需求约为 6Gbps、一个超清摄像头每天产生的原始视频高达 63TB，只有进行了视频编码才可以传输、存储。

随着时代的发展，智能安防、自动驾驶、智慧城市、工业互联网等场景中的视频也可以被机器接收、感知、理解。

以自动驾驶为例，一辆车主要具备的系统或设备包括摄像头系统（检测前方物体）、夜视红外、雷达测距器、惯性传感器、GPS 定位器及激光雷达（360° 进行扫描），这些都由机器采集图像和视频，再交付给机器进行分析、发现并解决问题、完善功能。

机器在某些维度上的能力优于人类，比如观测精度、感知灵敏度、工作强度耐受性（机器可以全天候运转）、客观性、可量化性。

据 Cisco 统计，以机器视觉为主的从机器到机器的数据传输将占据全球数据传输的 50%，这是非常大的量。

无论是人眼视觉还是机器视觉，视频编码的原理都是一样的，即依靠视频信号本身存在的相关性：一幅图像中相邻的像素值接近，这是空域相关性；相邻图像的像素值接近，这是时域相关性；如果将像素从空域变换为频域，其中也存在相关性。这就是视频压缩的三个最基本相关性，空域冗余、时域冗余，信息熵冗余，由此诞生了视频编解码的三个主要模块，帧内预测、帧间预测，变换 / 熵编码。

冗余消除本身是无损的，但视频压缩会出现失真，失真是如何造成的呢？这是为了进一步提高压缩率，把视频信息变换到某个域上，例如传统编码通常变换到频域，再按照其重要性进行优先级排序，把优先级低的如高频信息直接丢弃或量化操作进行消除从而大幅度提高压缩率，所以是量化在提高压缩率的同时带来了失真。

综上，视频压缩依靠两个维度，一是相关性的消除，不会造成失真。二是将信息变换到某个域上进行优先级排序，对优先级低的信息进行丢弃、消除或量化。

基于以上视频压缩原理，在过去的 50 年中，全球范围内的视频编解码工作人员推出了一代又一代的视频标准，虽然标准一代一代更新，但都是基于划分、预测、变换、量化、熵编码的框架没有变过去年 JVET 社区定稿了 VVC 标准，在 VVC 之后也致力于传统编码和神经网络编码的两方面探索。

国内在定稿了 AVS3 之后，也在深挖传统编码和神经网络编码以希望进一步提高视频编码效率。在机器视觉领域，MPEG 成立了面向机器的视频编码工作组（VCM），国内成立了面向机器智能的数据编码工作组（DCM）。

以 VVC 为例，去年制定的 VVC 对比 2013 年颁布的 HEVC 标准，虽然压缩性能提升一倍，但深入研究每个模块中模式数量的变化，会发现帧内预测、帧间预测及变换都增加了很多模式，这意味着平均每个模式能够带来的压缩性能增益变得更小。

每个编码模式都是由视频编解码专家根据自身所学及理解对视频信号进行数学化表达，每个模式的本质都是数学模型，而人们掌握的数学模型都很简单，比如线性模型、指数函数、对数函数、多项式等。模型的参数量不会很多，一般是几个，最多是几十个。压缩性能提升愈发困难的原因也在此，人们能够规律化总结的数学模型相对简单，表达能力有限，但视频内在的规律性却是无限的。

从模型角度，基于人工智能的神经网络模型可以通过更多的参数不断提高数学表达能力。数学领域已严格证明神经网络能够表达任意函数空间，只要参数足够，表达能力就会越来越强。手动设置的参数只有几个或几十个，但神经网络设计的模型中参数可以多达几百万个，甚至 Google 推出了亿级参数的超大模型。

从上限来看，基于 AI 编码的视频压缩一定会比基于传统编码的视频压缩有着更高的性能上限。

从视频信号本身的冗余性角度，上文提到传统的视频编解码在过去的五十年里都在消除空域冗余、时域冗余和信息熵冗余。

除了这三个冗余，其实还有其它的冗余对视频压缩来说有很大的性能提升空间。首先是结构冗余，右下方的两朵花很相似，在编码中，如果已经编码好第一朵花，那么编码第二朵花时的很多信息就可以从第一朵花的编码中推导出来，无需完全编码。第二个是先验知识冗余，见右上图，如果用手遮住右半部分人脸，只留左半部分，由于人脸接近对称，我们依然可以想象出被遮住的部分，这是因为人们的脑海里有了人脸近似对称的先验知识。那么也可以让机器记忆先验知识，就无需把信息从编码端编码到解码端。

所以对于视频压缩来讲，结构冗余和先验知识冗余也很重要，传统编码并不是不能利用这两者，只是人工智能和神经网络在额外利用结构冗余和先验知识冗余上更高效，更游刃有余。

2. 人物视频生成编码

首先看一个简单的两帧编码问题，编码端先将第一张图像的信息告诉解码端，解码端已经接受了第一张图像并且解码出来，我们将其作为参考帧。此时，如何压缩当前帧？

（右上两图）在传统编码中，方法是将当前图像分为一个个图像块，每个图像块在参考帧中找到最相似的参考块，当前图像块与参考块之间的相对位移称为运动矢量，这样就可以基于参考块预测当前块的预测值，拿到当前图像最可能的预测帧，再将预测帧和当前帧的差值编码过去就可以了。

相对于图像压缩来说，视频编码的效率非常高，因为视频编码的时域预测、时域相关性非常强。但这个码率也不会很低，因为要编码的东西很多，比如图像块划分的划分信息，每个图像块的运动信息、残差值等。所以压缩效率虽然相比图像压缩高很多，但也达不到超低码率。

为了实现超低码率压缩，我们提出了 AI 生成压缩方法。（右下两图）不再将整张图像划分为一个个的图像块，而是将它当做整体，将整张图像通过神经网络转换至某种特征域，在特征域上提取少数关键点，只需将关键点传输到解码端，解码端收到后并基于参考帧就能够驱动生成当前帧的图像。

其中，关键点数目可变，例如实例中有十个点，所以每幅图像只需传输几十个数值即可，码率高出传统编码方式非常多。

对于整个视频来说，可以先用传统编码传输第一幅图像，再用 AI 生成编码传输接下来的图像，在编码端提取每一帧的关键点传输到解码端。解码端如何生成这一帧？首先提取参考帧关键点将其和当前帧解码的关键点一起送入神经网络中，得到特征域上的稀疏运动场。

两幅稀疏运动场都会被送入 Dense motion Net 中得到密集运动场，并同时得到一张遮挡图。参考帧、密集运动场和遮挡图再一起被送入生成器中，从而生成当前帧。

这是关键点在特征域的可视化结果。

以第一行的图像为例，第一副是参考图像及其关键点，第二副是当前需要编码的图像及其关键点，中间十副带颜色的图像是每个关键点在特征域上反映的运动信息。其中第三副反映的是整体人脸正面的运动情况，后面几副可能反映头部外侧的运动情况，靠近右侧的几副可能反映下巴或嘴唇的运动情况。最后，十副特征图上的运动场会融合在一起得到密集的运动场。

这是在整个驱动生成的 pipeline 过程中每个环节的主观展示。

第一列是参考帧，第二列是当前帧，第三列是编码过去关键点之后在解码第一步首先生成的稀疏运动场，在目前的案例中，稀疏运动场对每个图像来说使用的是 4图片4 矩阵，图中可以看到有 4图片4 个方格，这是一个稀疏的运动图。将稀疏运动场作用在参考帧上就可以得到第四列中当前图像的简图，可以看到第四列人脸的位置和运动已经非常接近当前帧，只是在纹理细节上还存在差距。接着，稀疏运动场通过更加复杂的运动模型后得到密集运动场，再重新将密集运动场作用到简图上得到第六列中运动场作用后的更精细的图像。最后将遮挡图作用到运动场后的图得到当前帧的生成图。

在人物讲话的数据集上对 AI 生成压缩方案进行测试，能够看到以下主观上的对比。

左边两列视频是最新的 VVC 参考软件编码的结果，右边两列是 AI 生成压缩方案编码的结果，我们的码率略低于 VVC，但能明显对比发现画面质量远远好于 VVC。VVC 本身的块效应、模糊度都非常严重，而 AI 生成压缩方案无论是在头发、眼睛、眉毛上的细节图都更优，在整个头部运动的流畅度、表情的自然度方面也有明显提升。

这是在码率接近的情况下的质量对比，可以说已经达到了代差级的质量提升。