一、寫在前面

感謝百度組織這次論文復現活動，感興趣的朋友也可以點擊鏈接參加：

//aistudio.baidu.com/aistudio/education/group/info/1340

二、論文背景

自 2014 年Goodfellow等人發表了最初的 Generative Adversarial Networks 論文以後，關於 GAN 的研究成為電腦業界的大熱門，隨後的發展脈絡集中於兩條主線，一條是針對GAN理論的基礎研究和改進，另一條則側重於應用，而 U-GAT-IT 這篇論文就是 2020 ICLR 上非常亮眼的作品。

前置論文推薦：
- Generative Adversarial Nets
- UNSUPERVISED REPRESENTATION LEARNING WITH DEEP CONVOLUTIONAL GENERATIVE ADVERSARIAL NETWORKS
- Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks

三、論文閱讀筆記

1. Introduction

Image-to-image translation可以應用在很多電腦視覺任務：

影像分割
影像修復
影像著色
影像超解析度
影像風格（場景）變換等

而 GAN 的優勢在於：不僅僅在模型訓練的收斂速度上，同時在影像轉換品質上展示了優越的結果。相比傳統的 Pixel CNN、VAE、Glow 優勢非常明顯。所以近年關於 GAN 的研究非常多。

而「影像翻譯」則是 GAN 應用的第一步：

跨模態間的轉換
文本到影像
文本到影片
語音到影片等

這種端到端，希望實現一個分布到另一個分布轉換，GAN 都是可以有一定的作用。

該論文提出了現在 Image-to-image translation 依然存在很多問題，比如現在只能實現人到人的轉換，狗到狗的轉換等，差異情況較大的就難以轉換，比如在貓到狗或者是僅僅是語義聯繫的影像轉換上的表現則不佳。

U-GAT-IT 的出現，正是為了實現跨域轉換的魯棒性

兩大創新點：
- 新的注意力機制 a new attention module，採用全局和平均池化下的類激活圖（Class Activation Map-CAM）來實現的，通過 CNN 確定分類依據的位置。
- 新的自適應歸一化函數 a new learnable normalization function，幫助注意力引導模型靈活控制形狀和紋理的變化量。