­

CIIS 2020 | 腾讯优图与你共话「视觉内容编辑生成技术与应用」

随着人工智能各项关键技术日益成熟,在国家创新驱动发展战略推动下,历经一场影响深远的疫情大考,智能产业革命进程加快,新的创新范式、服务形式、生产方式、商业模式在千行万业智能化升级过程中不断涌现。

11月14日-15日,2020第十届中国智能产业高峰论坛(CIIS 2020)在嘉兴南湖成功举办,在15日上午的计算机视觉分论坛上,清华大学杨士强教授、厦门大学特聘教授纪荣嵘、CAAI副理事长刘成林研究员、大连理工大学李培华教授、清华大学高跃副教授、百度视觉技术部丁二锐总监、腾讯优图实验室轩辕研究中心负责人汪铖杰高级研究员等多位学术和技术领军者带来了精彩的主题报告,挖掘智能科技应用价值,描绘计算机视觉未来路径。

其中,腾讯优图实验室轩辕研究中心负责人汪铖杰高级研究员,分享了《视觉内容编辑生成技术与应用》的主题内容,以下为精简后的演讲内容:

今天我主要讲的内容包括三个部分,一个是学术研究的趋势,第二块是行业应用的挑战,第三块给大家介绍一下我们在公司里面做的具体应用案例。

我们在做视觉内容生成这一块主要关注两点,分别是GAN和CG。从GAN的发展趋势来讲,它的趋势就是这几个。第一点是学界的研究热度很高,论文数量非常多,而且是以加速方式在增加。第二点是训练稳定性逐步提高,早些时间GAN很容易训飞,随着GAN基础理论的提升,其实现在训练稳定性比较好,能够保证有较好的训练效果。第三点是GAN的清晰度有所提高,早期做的应用都是偏64×64像素,理论上有很多的价值在,使用角度也不是太好用。但现在已经可以做到1024*1024像素,具备比较好的应用型。

从CG方向来讲,它有非常宽的领域。从我们应用视角来看它的发展情况,CG第一个比较大的变化就是深度学习化,早期的时候CG都是有很多的渲染方法或者几何表达方法,相对方法是比较发散的,这个做起来成果比较高。

现在把原来CG的操作深度化了,这种情况下可以把深度学习传统的理论结合起来,在引入深度学习的时候,我们可以把人脸特征或者其他像素的约束引入进来,使它在应用更多约束的情况下把成像做得更好。另外它有一个自监督图形学习方式,早期需要建很多3D的GT,具有一定的难度,不过现在对于这一块的数据依赖在下降。

前面我给大家简要回顾了从公司视角怎么来看CG和GAN的发展。接下来给大家讲一下我们在公司里做这样的技术研究时会遇到哪些学术界不太会关注到的痛点,而我们又是怎么解决它的?

在行业使用过程当中,虽然我们团队也发很多论文,但实际上来讲在行业使用当中遇到的问题更让我们难以应付些。这里我挑了三个有代表性的挑战给大家分享一下。

第一,极低的计算开销,算法不是能在移动端上能实现运算就算达标。它的挑战要求远远比这个更高。很多情况下因为产品设计的需要,尤其是视频通话类的需求,视觉编辑生成类算法仅能局部的计算资源,且需要考虑设备发热等问题。

第二,公司研发需要做敏捷潮流捕捉,这一块是视觉内容生成独有的特点,以前我们做人脸识别做人脸配置也好,追求目标是一致的,追求精度更高。生成这一块与追求潮流相关,举一个例子,我们做一个画脸,可能今天火,一个月之后就不火了。卡通画同样面临这样的问题,在做技术时,一方面要有比较好的预判形式,判断哪一块容易火就优先做。但因为潮流的流行时间也就是一年不到时间,这就牵扯到研发周期的问题,需要尽可能早地做出来也是对我们的一种挑战。

第三,和谐的风格适配,这也是在视觉内容里面独有的问题,比如在做人脸重建时,我们永远追求重建精度足够低,误差在几毫米以下。但在应用的过程中,很多场合要求你不是足够准,而是在准的情况下还要美,这是我们在视觉内容生成里面遇到的比较核心的挑战。后面我会逐一详细介绍,具体内容怎么样,我们又是怎么样应对的。

而关于极低计算开销这部分,给大家举一个腾讯会议的例子,里面包含了很多内容,要共享屏幕,还要做人象编辑,把背景编辑掉,把面部表情编辑掉。这里面有个重点,就是要保证视频的流程性,并且效果要好。视频融合不是它的主要功能,这种情况下这个APP愿意分享给你这项功能的资源是非常有限的。举个例子,我们要在中端偏下的设备对人象分割这样的能力CPU负载达到5%,模型大小0.5M以下。对此我们从做的N件事里挑了几个,大家更具有共识的几点。

一是做轻量模型设计,凭借我们的经验把经验应用进去;二是用NAS,尝试搜索比经验更好的,这两块也会有结合;三是在某性做的特别小的情况下,性能维持是一个比较困难的事情,所以我们一般会采用去跟N个大模型用多Teacher知识蒸馏做,模型跑多快,效果多好,还有高性能前向计算的问题,我们有专门团队做快速高性能的计算。

潮流捕捉,QQ或者微视,本身就是C端用户,怎样留住用户是比较困难的一件事,需要持续提升新的能力吸引住用户。另外一个就是腾讯,腾讯云会像各种各样的偏娱乐或者广告营销的客户推销这种能力,因为客户需要的就是时下最火最能够对他技术产业营收有帮助的,一般常规的性能在14天内完成研发上线。

很多很杂的需求如何做研发?我们内部有一个DittoGAN,网络特点我们有什么任务就能够模拟出一个任务,我们首先去设计一个通用的框架,这里面核心结构是采用FCN型结构,后端采用GAN的特点,这个里面我们会采用3D渲染,也会引入识别和属地做约束,我们会引入不同的任务来做Ditto的模块,我们会引入一些Pose,还有年龄演化的时候有年龄的相似度,还有年龄的属性,把模型做的尽量小达到尽快使用化。

除了我们在做3D这件事情做的比较真实以外,最重要的是不要破坏游戏的画风和美感,我们做的时候要保证画风和游戏非常匹配,而且具备用户能够让他自己感受到美感的,在这个大前提下我们再考虑3D的人脸重建,动作驱动是否做得足够好。面对这个目标,首先我们还是走了一些常规类似于学术研究的套路,我们自己建了一个3D的人脸基底,因为学术界也有发布一些3D的人脸机,因为这些机点都有一些人群的数量或者人群的覆盖跟我们产品不合适的。

比如说之前老师也提出一个数据集,本来都是三四十岁的中龄人为主,但是游戏里面都是年轻人为主,还有一些数据是欧美人为主,亚洲人覆盖不到,所以我们有自己重建做的这个基底,基于这个基底我们又采用了这样的模式做了重建,重建完后我们可以得到重建结果跟真实用户人脸在3D结果方面有比较好的相似性,这个相似性代表了用户在真实世界里面的画风。

游戏里面的眼睛要比常规人的眼睛要大一些,通过对于人脸的分布、脸型的长宽比的分布、游戏引擎做另外的分布,我们基于真实人脸重建完了的节点做定势,使它向游戏人脸靠近,做完这以后还是不够的,因为游戏里对细节精度要求特别高,我们会利用这种3D重建,根据我们的分析整体精度还是可以,但是细到五官表达精度还是不够的,除了做这种后修复以外,我们还会对游戏里面的角色针对性地做重建,这个是3D重建无法覆盖的,整个做出来是有比较好的效果。

我再跟大家分享几个我们在实际应用里面的几个例子。第一个就是刚才讲的腾讯会议里用到的视觉AI能力。我们主要上线的就是虚拟背景,我们在非常受限的资源控制下,全平台做到超实时计算。还有我们能够做到边缘亚像素级别的精度。另外,时序稳定优化处理,因为它比较小,还是会出现一些问题,所以会用时序处理的方法进行多帧的修复。目前腾讯会议现在的用户也是非常可观的。

第二个是人像融合的技术,用户上传一张人脸以后,会把用户人脸跟这个模板人脸去做融合,这个跟刚才那个有类似,用户玩这个游戏的时候,为了使它有更好的参与感,我们会做一个比较好的结合,这个技术有两个比较明显的特点,一是用户身份特征维护好,二是复杂场景下鲁棒性比较强,因为游戏里面人物设计比较夸张一点,这个游戏,比如说胡子、刀疤设计的比较奇怪,这些游戏特点都会比较好的保留下来。

我们另外一块做的比较多的就是人像变换。这个是比较窄的,可能有些用户需要唯美的风格,另一个用户需要卡通风格。所以我们推出这样的技术具备两个特点,一是支持多种卡通画风,如果对新的画风有需求我们可以在14天提供给他;二是对视频内容帧间稳定性高,稳定性效果好。