基于人脸关键点修复人脸,腾讯等提出优于SOTA的LaFIn生成网络

  • 2019 年 12 月 11 日
  • 筆記

作者 | Yang Yang、Xiaojie Guo、Jiayi Ma、Lin Ma、Haibin Ling

译者 | 刘畅

编辑 | Jane

出品 | AI科技大本营(ID:rgznai100)

【导语】现实场景中,人脸的变化是很大的,例如不同的姿势、表情和遮挡等,因此在现实场景中修复人脸图像是一件非常具有挑战性的任务。一种好的修复算法应该保证输出没有违和感,包括眼睛,鼻子和嘴巴之间的拓扑结构,以及姿势,性别,种族,表情等属性是一致的。

在今天的这篇论文中,腾讯联合天津大学、武汉大学等高校研究了一种有效的基于深度学习的方法来解决这些问题。该方法涉及人脸关键点预测子网和图像修复子网。具体而言,关键点预测器可以提供不完整面孔的结构信息(例如,拓扑关系和表情),而图像修复器则根据预测的关键点生成合理的外观(例如,性别和种族)。

在 CelebA-HQ 和 CelebA 两个数据集上的实验结果现实了本文方法的有效性,并定性定量的证明了其优于 SOTA 的方法。此外,本文假设高质量的完整面孔及其关键点可以用作增强数据,以进一步提高(任何)关键点检查的性能,在 300W 和 WFLW 两个数据集上的实验结果证实了这一想法。

论文与代码地址

https://github.com/YaN9-Y/lafin

https://arxiv.org/abs/1911.11394

引言

图像修补(Image Inpainting)指的是重建图像丢失或损坏的过程,该过程可以作为各种其他任务的预处理,如图像恢复或图像编辑。毫无疑问,研究者们期望完成的结果是无违和感的。相较于海洋、草坪等自然场景,人脸会更有挑战性。因为人脸会有更强的拓扑结构,而且需要保留一致性的人脸属性。

如图1 所示。,根据观察,研究者们会很容易的感知到重构的人脸中存在的明显缺陷。下面给出这个问题的定义:

定义:人脸修补。给定一个带有损坏区域M的人脸图像I。然后指定M’ 为M的补码。o为哈达玛积。目标是对遮挡区域填充语义上的连续且有意义的信息,换句话说,最终的结果I’ = MoI' + M'oI应当保持眼睛、鼻子、嘴巴间的拓扑结果,以及姿态、性别、种族和表情等属性的一致性。

在现实场景中完成人脸修补是一项非常具有挑战性的任务。一个合格的人脸修补算法应当仔细考虑下面两个方面,以确保输出的真实感

(1)人脸的结构非常稳固。眉毛、眼睛、鼻子和嘴巴等面部特征之间的拓扑关系始终有条有序。最终生成的脸必须首先满足此拓扑结构。

(2)人脸的属性,如姿态、性别、种族和表情在整个修补区域和可见区域应该保持一致。

有稍微不满足上述的两个条件,则会存在重大的感知缺陷。

为什么要采用人脸关键点?这项工作采用人脸关键点作为结构监督信息,是由于其紧凑性、充分性和鲁棒性。有人可能会问,边缘信息或解析信息是否比关键点指导性更强?如果得到的信息是非常准确的,那当然。但是在非常具有挑战性的环境下(如大面积损坏的大姿态人脸),要生成合理的边缘并不容易。在这种情况下,冗余和不准确的信息会损害性能。关键点相较于这些信息,更整洁健壮。从编辑操作角度看,关键点更易于控制。这些特点对于人脸修补来说,使用关键点是更好的选择。

如何保持属性的一致性?除了由关键点确定的人脸姿态和表情属性外,还需要考虑其他几个属性,例如性别、种族和容貌风格。一致性最重要一点是连接可见区域和修补区域,对于这些更细粒度的属性,修补算法应将可见信息作为图像重构的参考。

本文贡献。本文提出了一个深度网络,即“关键点指导的生产性图像修补器”(Generative Landmark Guided Face Inpaintor,简称LaFIn),它由人脸关键点预测子网和图像修补子网组成,用于解决人脸修复问题。主要贡献可以归纳为以下几个方面:

1、正如分析那样,人脸关键点整洁,充足且鲁棒,可以用作人脸修复的监督。本文构建了一个用于预测不完整面孔上的关键点模块,该模块可以映射目标面孔的拓扑结构,姿势和表情。

2、为了修复人脸,本文设计了一个以人脸关键点信息为指导的修复子网。为了实现属性一致性,子网利用了上下文信息并连接了相关联的特征图。

3、本文进行了大量的实验以验证算法的有效性,并定性定量的证明其优于目前SOTA的方法。

此外,我们可以进一步使用完成结果来提高关键点检测器的性能。由于在实际情况中,训练数据通常不足,并且手动标注关键点十分耗时,因此需要一种简单而又可靠的数据扩充方式。这是本文的另一项贡献。

4、修复后的图可能生成基于关键点的各种新面孔。因此,可以将生成的面部和相应的(GroundTruth)关键点用作增强数据。在 WFLW和300W两个数据集上的实验结果证实了这种方式的有效性。

方法

整个模型由两个子网络构成,一个是预测关键点的网络,一个是基于关键点生成新像素的图像修补网络。论文中的关键点预测子网络可以使用任意已有的关键点检测算法,但是作者的关注点有所不同,他们更希望得到一些基础拓扑结构和某些属性,而不是每个关键点的精确位置。因此作者连接融合了不同阶段的特征图来实现最终的关键点预测。

图像修补模型的输入是损坏图像和关键点(预测的结果或Ground Truth)。模型包含了生成器和判别器。其中生成器是基于U-net网络结构,但略有不同,具体的网络结构参数作者在论文附录使用表格非常详细的给出了。判别器是基于70*70的Patch-GAN网络结构。引入了SN等一些常见的稳定模型训练的结构。同样在附录里面有非常详细的结构参数。关于Loss函数,作者使用了多种Loss的结合,包括per-pixel损失、感知损失、风格损失、TV损失和对抗损失。

实验

首先实验的数据集是CelebA-HQ,其中的损坏和遮挡等是随机生成和添加。对比的方法包括CE、GFC、CA、GAFC、PIC、EC。客观评价指标使用的是PSNR、SSIM和FID。

作者还实验了使用LaFIn方法来增加关键点检测的训练数据。并在WFLW和300W两个数据集上实验了效果。如下所示。

具体的实验细节,建议阅读论文原文。一定会有不一样的发现。

总结

在这些研究中,本文开发了一个生成网络,称为LaFIn,用于人脸修复。提出的LaFIn算法首先预测关键点,然后根据关键点进行图像修复。本文依据的原则是,要有足够且鲁棒的关键点,才能为人脸修补器提供结构信息指导。为了确保属性的一致性,本文利用了上下文信息。通过大量的实验,验证了本文方法的有效性,并定性定量的证明其优于SOTA的方法。此外,还可以使用LaFIn算法来增加人脸关键点数据,实验证明了这种方法的有效性。

(*本文为AI科技大本营编译文章)