AliRTC 开启视频互动 “零计算” 时代

在 2021 云栖大会《产业视频化创新与最佳实践》视频云主题论坛中，阿里云智能高级技术专家在《AliRTC 开启视频互动 “零处理” 时代》的主题演讲中，发布了阿里云视频云下一代实时交互解决方案 —RTC “零处理”，同时分享了阿里云视频云在 RTC 产品的探索和实践，以下为演讲内容整理。

一、交互演进与挑战

在过去几年，视频交互产品发生了什么变化？

我们认为 RTC 产品对行业产生了两次非常重要的变革。

第一次变革是 2014 年开始的交互从图文到音视频的升级。

2014 年，互联网创业者与 RTC 产品供应商一起探索视频互动的商业化，教育、娱乐成为主要的突破方向，基于全球范围内的互动授课、秀场视频连麦、多人交友互动，也大多在这时间点完成了商业与技术的成功结合。

2017 年是一个标志性的时间点，RTC 产品已经帮助头部互联网客户实现了颠覆性发展，标志着互动视频技术与在线互动商业模式的成熟。

接下来几年更多的是不同体量、不同场景的规模复制，所以我们能看到，在 2018 年以及后续的几年，市场上并没有新场景、新互动的创新，而是基于不同内容、不同客群的业务复制，视频互动从头部走向更多的细分市场。

第二个重要变革发生在 2020 年，受疫情影响，让云视频会议全面渗透，让这个时间提前了至少 5 年。

这次市场的变化，我们不能称之为一次技术革命，实际上对 RTC 产品并没有新的诉求，也没有产生新的互动场景和技术，但这次大规模的渗透，重新定义了供应商的市场格局，第一次让云厂商成为了市场极其重要的一部分，让市场从单一的会议厂商，分裂为云平台 + 会议终端供应商，让我们的客户有了更多的选择。

从 2018 年到现在我们没有场景上的根本突破，是不是因为我们的技术上遇到了瓶颈？

带着这样的问题，阿里云对 RTC 场景技术进行了深入的技术评测，我们试图发现整个行业大家的技术水位是什么样的，不同于单项的视频技术，RTC 的评测要更为复杂。

例如，对视频编码，我们可以通过 PSNR，SSIM，VMAF 等来分析，对于视频分类等视觉算法，我们可以通过 ROC 曲线来分析，但对视频 RTC 来说，涉及的主观感受非常多，是一件比较复杂的事情，目前业界也没有统一的评测标准。

我们从这些影响用户感受的指标里面抽出六个维度表征 RTC 的表现质量。

对评测感兴趣的话可以关注我们的**「视频云技术」公众号**，里面详细介绍了我们怎么进行自动化评测的，评测过程中我们会创造不同的网络环境，检测 RTC 在各方面的表现。

我们对行业里的 RTC 做了一些评测，发现有两个特点。

第一，RTC 有明显的技术门槛，比如说绿色的框代表一类典型的 RTC 能力，由规模较小的团队自研，投入较小，会有明显的差距。

第二个是几个比较大的供应商，包括在阿里云在内，外面这一圈，红色的线、蓝色的线，以及黄色的线，他们都处于相对比较一致的水平，但是没有一家有特别优秀的地方，所以技术同质化特别严重，大家基本上处于同样的水平。

我们当前视频的实时互动主要集中在线上线下场景，未来可能会有更广阔的应用场景，比如说一些交互场景，VR 操控类、虚拟现实类。

这时候我们会思考一个问题，我们的技术是不是已经发展到了瓶颈期，我们无法满足未来更广泛的需求，这后面的原因是什么？会不会是我们的技术发展到某个瓶颈了？因为技术通常是阶跃式的发展，不能突破就会陷入在一个层次上。

二、“零处理” 加速交互升级

我们希望分析一下，现在用户的体验到底怎么样？我们现在的技术存在什么问题？

通过比较各家 RTC 供应商，我们发现一个比较有意思的点，就是大家有千分之二的卡顿率是难以消除的。50%、60% 的丢包都可以做的很好，但是如果网络带宽受限，千分之二的卡顿就难以消除了。

我们有一些手段可以解决类似的问题，比如利用窄带高清技术，我们可以通过复杂计算解决这些问题，也可以通过非标屏幕编码类技术解决，但是实际上我们很难把这些技术进行非常广泛的利用。

最根本的原因是我们会发现端侧能力是有限制的，大家的手机各不相同，有可能有些人的手机特别好，可以做复杂算法，有些人手机差，无法进行复杂算法，同时，端的碎片化比较严重，要对所有端适配是比较困难的。

在应用上我们希望能够提供更有趣的交互，比如说实时生成卡通人物形象，这在端上可以运行，但是只有少数非常强大的设备才能运行。

一个自然的想法是，我们是不是能突破当前的应用架构？

我们把一个完全依赖端能力的架构，逐步转变成依靠云和端一起配合进行视频传输处理的架构，基于这个想法我们提出了云处理 + 端渲染技术，目的是希望从云上提供强大的处理能力，端上负责渲染，只需要提供很少的处理能力就能完成比较好的处理效果，使大家在不同的手机上都能得到一样的体验。

这就是视频云**“零处理” 解决方案**的基本架构图，在端上只需要进行比较简单的视频采集以及视频传输，然后通过我们构建的覆盖全球的 GRTN 网络到达云端，云端使用 GRTP 的云端实时处理引擎对视频进行处理，再把处理好的视频传到端上，端上只需要做简单的呈现。这样可以很好的解决刚才提到端计算能力不够和碎片化的问题。

但是天下没有免费的午餐，采用上面的架构，很容易发现几个问题。

第一，我们的云上是不是能承受这么大规模的处理。

第二，云上能不能承担这么大规模的成本。

第三，云上能不能持续提供这么多类型的处理服务。

我们自己的信心来自于几个方面。

第一，通过阿里多年的积累，我们积累了业界最大规模的云上视频处理集群，所以我们在技术上已经具备承担超大规模处理的能力。