百度飞桨PaddlePaddle论文复现训练营——论文阅读笔记:U-GAT-IT
二、论文背景
三、论文阅读笔记
1. Introduction
2. Model
2.1 生成器 GENERATOR
2.2 判别器 DISCRIMINATOR
2.3 损失函数 LOSS FUNCTION
3. EXPERIMENTS
一、写在前面
感谢百度组织这次论文复现活动,感兴趣的朋友也可以点击链接参加:
//aistudio.baidu.com/aistudio/education/group/info/1340
二、论文背景
自 2014 年Goodfellow等人发表了最初的 Generative Adversarial Networks 论文以后,关于 GAN 的研究成为计算机业界的大热门,随后的发展脉络集中于两条主线,一条是针对GAN理论的基础研究和改进,另一条则侧重于应用,而 U-GAT-IT 这篇论文就是 2020 ICLR 上非常亮眼的作品。
- 前置论文推荐:
- Generative Adversarial Nets
- UNSUPERVISED REPRESENTATION LEARNING WITH DEEP CONVOLUTIONAL GENERATIVE ADVERSARIAL NETWORKS
- Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks
三、论文阅读笔记
1. Introduction
Image-to-image translation可以应用在很多计算机视觉任务:
- 图像分割
- 图像修复
- 图像着色
- 图像超分辨率
- 图像风格(场景)变换等
而 GAN 的优势在于:不仅仅在模型训练的收敛速度上,同时在图像转换质量上展示了优越的结果。相比传统的 Pixel CNN、VAE、Glow 优势非常明显。所以近年关于 GAN 的研究非常多。
而“图像翻译”则是 GAN 应用的第一步:
- 跨模态间的转换
- 文本到图像
- 文本到视频
- 语音到视频等
这种端到端,希望实现一个分布到另一个分布转换,GAN 都是可以有一定的作用。
该论文提出了现在 Image-to-image translation 依然存在很多问题,比如现在只能实现人到人的转换,狗到狗的转换等,差异情况较大的就难以转换,比如在猫到狗或者是仅仅是语义联系的图像转换上的表现则不佳。
U-GAT-IT 的出现,正是为了实现跨域转换的鲁棒性
- 两大创新点:
- 新的注意力机制 a new attention module,采用全局和平均池化下的类激活图(Class Activation Map-CAM)来实现的,通过 CNN 确定分类依据的位置。
- 新的自适应归一化函数 a new learnable normalization function,帮助注意力引导模型灵活控制形状和纹理的变化量。
2. Model
模型分为生成器和判别器,两者结构几乎相同,生成器多了 AdaLIN 和 Decoder部分
生成器,首先是对端的输入端进行图像的下采样,配合残差块增强图像特征提取,接下来就是注意力模块,接着就是对注意力模块通过 AdaLIN 引导下残差块,最后通过上采样得到转换后的图像。
判别器相对于生成器而言,就是将解码过程换成判别输出。
2.1 生成器 GENERATOR
主要涉及的关键点就是 ACM 和 AdaLIN
AdaLIN:
结合两种 Norm 的优势:
- Layer Norm 更多考量输入特征通道之间的相关性,LN比IN风格转换更彻底,但是语义信息保存不足
- Instance Norm 更多考虑单个特征通道的内容,IN比LN更好的保存原图像的语义信息,但是风格转换不彻底
2.2 判别器 DISCRIMINATOR
和其他的翻译模型一样,这里的判别器也是一个 multi-scale model,需要和 编码器,分类器,辅助分类器保持一致。
但是不同于其他模型的是,辅助分类器和判别器会同时训练用于鉴别图像是真实的还是生成的。
2.3 损失函数 LOSS FUNCTION
- Adversarial loss
描述 translated images 和 target image distribution 之间的差距
- Cycle loss
用于消除模式崩塌问题 mode collapse problem,用这个去限制生成器
- Identity loss
用于衡量输入和输出图像的颜色分布差距
- CAM loss
从辅助分类器 auxiliary classifiers 挖掘信息
- Full objective
最终,同时训练:编码器,解码器,判别器,辅助分类器,以此来优化最后的目标函数
3. EXPERIMENTS
可以看到实际的转化效果非常好:
- 卡通转人像
- 适应多种转换