发福“钢铁侠”、返老还童阿汤哥,Deepfake好莱坞明星圆桌对话不忍直视!
- 2019 年 11 月 26 日
- 筆記
【新智元导读】被发福的“钢铁侠”吓到了!近日,一个好莱坞明星圆桌对话的Deepfake视频刷爆了油管。整个对话行云流水,只不过“双下巴”的小罗伯特·唐尼和瘦弱的汤姆·克鲁斯让人感觉怪怪的。原来,视频使用名人模仿者提供名人的基本举止表现和声音,然后通过Deepfake覆盖脸部伪造。来新智元 AI 朋友圈和AI大咖们一起讨论吧。
昨天晚上,闺蜜发来一个视频把我吓了一跳。视频中,偶像小罗伯特·唐尼竟然发福了!
这怎么可能!后来我才知道,这是人家Deepfake的一个视频,把视频中人物的脸和声音替换了。
除了小罗伯特·唐尼,汤姆·克鲁斯、乔治·卢卡斯、伊万·麦格雷戈、杰夫·戈德布鲁姆这些好莱坞明星都被Deepfake了,还组了个圆桌会议:(整个视频只有主持人是本人)
视频中,大家比较熟悉的“钢铁侠”小罗伯特·唐尼明显发福,双下巴都出来了;“返老还童”的汤姆·克鲁斯太瘦弱,这哪里是碟中谍里那个玩命的阿汤哥?而且,他们的声音听着也很奇怪:
这个视频引发了网友热议,很多人被这个以假乱真的视频惊到了,搞不清到底谁是真的、谁是Deepfake。
自从拯救宇宙以来,Stark似乎吃了太多的芝士汉堡。
整个过程中我都像汤姆·克鲁斯一样大笑。
无论是谁在扮演杰夫·戈德布鲁姆和汤姆·克鲁斯,太赞了!
想象一下20年前、甚至10年前把这个给别人看,他们会很困惑的。
技术出神入化,Deepfake前后对比
这个Deepfake视频由一个名叫Collider的电影网站制作,他们使用名人模仿者提供名人的基本举止表现和声音,然后通过Deepfake覆盖脸部,这样伪造的视频乍一看很让人信服。来见识一下伪造前后对比:
现在Deepfake就能做到这样的水平了,再过两年会不会肉眼根本无法分辨?
“出道”3年火遍全球,Deepfake被玩坏了
其实,Deepfake并不是非常新鲜的技术了,它已经存在了将近三年,并且变得越来越容易。此前便有朱茵变杨幂,海王变徐锦江的相关报道。
《射雕英雄传》中,朱茵变杨幂
海王变徐锦江
Deepfake真正走进大众视野是在2017年年底。当时Reddit用户将《神奇女侠》的女主角盖尔·加朵、以及艾玛沃森、斯嘉丽等众多女明星的脸跟AV女优进行了交换,制作出足以以假乱真的爱情动作片。
国内也有过银幕上的换脸。在2017年科幻喜剧《不可思异》中,当时由于演员的原因,片方不得不临时换角,由大鹏代替杜汶泽所有戏份,进行了一次“特效换脸”手术。
但这次换脸,是用通过纯手工的方式一帧帧地修改画面,耗时将近6个月,才将影片中所有的镜头都换完。在价格上,可以说是“一秒千金”。
而AI换脸和后期换脸有着根本区别。后者还需要各种建模,以及一桢一桢的修改,前者在操作上只需要提供足够多的素材让机器学习。
另外,目前以fakeApp为代表的应用存在分辨率低、效果不稳定、渲染时间长的问题。QuantumLiu介绍,用AI和特效技术解决连续针断点再融入难题,one shot面部自适应,机器自主学习光感和画面匹配度,每一次的训练都会自动叠带,成功率,效果和渲染速度大幅提高,动态视频的切换更加完美的匹配。目前已经取得了高分辨率光感匹配的突破和叠加式渲染的突破。已经可以在几个小时内完成一整部片的替换,而且计算机学习的速度越来越快,时间周期还在不断的缩短,品质不断提高。
如何做到的?Deepfake技术详解
Deepfake 使用生成对抗网络(GAN),其中两个机器学习模型进行了较量。一个ML模型在数据集上进行训练,然后创建伪造的视频,而另一个模型尝试检测伪造。伪造者创建假视频,直到另一个ML模型无法检测到伪造。训练数据集越大,伪造者越容易创建可信的deepfake视频。
上图显示了一个图像(在本例中是一张脸)被输入到编码器(encoder)中。其结果是同一张脸的低维表示,有时被称为latent face。根据网络架构的不同,latent face可能根本不像人脸。当通过解码器(decoder)时,latent face被重建。自动编码器是有损的,因此重建的脸不太可能有原来的细节水平。
程序员可以完全控制网络的形状:有多少层,每层有多少节点,以及它们如何连接。网络的真实知识存储在连接节点的边缘。每条边都有一个权重,找到使自动编码器能够像描述的那样工作的正确权重集是一个耗时的过程。
训练神经网络意味着优化其权重以达到特定的目标。在传统的自动编码器的情况下,网络的性能取决于它如何根据其潜在空间的表示重建原始图像。
训练Deepfake
需要注意的是,如果我们单独训练两个自动编码器,它们将互不兼容。latent faces基于每个网络在其训练过程中认为有意义的特定特征。但是如果将两个自动编码器分别在不同的人脸上训练,它们的潜在空间将代表不同的特征。
使人脸交换技术成为可能的是找到一种方法来强制将两个潜在的人脸在相同的特征上编码。Deepfake通过让两个网络共享相同的编码器,然后使用两个不同的解码器来解决这个问题。
在训练阶段,这两个网络需要分开处理。解码器A仅用A的人脸来训练;解码器B只用B的人脸来训练,但是所有的latent face都是由同一个编码器产生的。这意味着编码器本身必须识别两个人脸中的共同特征。因为所有的人脸都具有相似的结构,所以编码器学习“人脸”本身的概念是合理的。
生成Deepfake
当训练过程完成后,我们可以将A生成的一个latent face传递给解码器B。如下图所示,解码器B将尝试从与A相关的信息中重构B。
如果网络已经很好地概括了人脸的构成,那么潜在空间将表示面部表情和方向。这意味着可以为B生成与A的表情和方向相同的人脸。
请看下面的动图。左边,UI艺术家Anisa Sanusi的脸被从一个视频中提取并对齐。右边,一个训练好的神经网络正在重建游戏设计师Henry Hoffman的脸,以匹配Anisa的表情。
显然,Deepfake背后的技术并不受人脸的限制。例如,它可以用来把苹果变成猕猴桃。
重要的是,训练中使用的两个主体要有尽可能多的相似之处。这是为了确保共享编码器能够泛化易于传输的有意义的特性。虽然这项技术对人脸和水果都有效,但不太可能将人脸变成水果。
参考链接:
https://www.theverge.com/tldr/2019/11/18/20970280/deepfake-roundtable-impersonation-collider-tom-cruise-jeff-goldblum-robert-downey-jr
新智元报道
编辑:张佳