百度飛槳PaddlePaddle論文復現訓練營——論文閱讀筆記:U-GAT-IT
二、論文背景
三、論文閱讀筆記
1. Introduction
2. Model
2.1 生成器 GENERATOR
2.2 判別器 DISCRIMINATOR
2.3 損失函數 LOSS FUNCTION
3. EXPERIMENTS
一、寫在前面
感謝百度組織這次論文復現活動,感興趣的朋友也可以點擊鏈接參加:
//aistudio.baidu.com/aistudio/education/group/info/1340
二、論文背景
自 2014 年Goodfellow等人發表了最初的 Generative Adversarial Networks 論文以後,關於 GAN 的研究成為電腦業界的大熱門,隨後的發展脈絡集中於兩條主線,一條是針對GAN理論的基礎研究和改進,另一條則側重於應用,而 U-GAT-IT 這篇論文就是 2020 ICLR 上非常亮眼的作品。
- 前置論文推薦:
- Generative Adversarial Nets
- UNSUPERVISED REPRESENTATION LEARNING WITH DEEP CONVOLUTIONAL GENERATIVE ADVERSARIAL NETWORKS
- Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks
三、論文閱讀筆記
1. Introduction
Image-to-image translation可以應用在很多電腦視覺任務:
- 影像分割
- 影像修復
- 影像著色
- 影像超解析度
- 影像風格(場景)變換等
而 GAN 的優勢在於:不僅僅在模型訓練的收斂速度上,同時在影像轉換品質上展示了優越的結果。相比傳統的 Pixel CNN、VAE、Glow 優勢非常明顯。所以近年關於 GAN 的研究非常多。
而「影像翻譯」則是 GAN 應用的第一步:
- 跨模態間的轉換
- 文本到影像
- 文本到影片
- 語音到影片等
這種端到端,希望實現一個分布到另一個分布轉換,GAN 都是可以有一定的作用。
該論文提出了現在 Image-to-image translation 依然存在很多問題,比如現在只能實現人到人的轉換,狗到狗的轉換等,差異情況較大的就難以轉換,比如在貓到狗或者是僅僅是語義聯繫的影像轉換上的表現則不佳。
U-GAT-IT 的出現,正是為了實現跨域轉換的魯棒性
- 兩大創新點:
- 新的注意力機制 a new attention module,採用全局和平均池化下的類激活圖(Class Activation Map-CAM)來實現的,通過 CNN 確定分類依據的位置。
- 新的自適應歸一化函數 a new learnable normalization function,幫助注意力引導模型靈活控制形狀和紋理的變化量。
2. Model
模型分為生成器和判別器,兩者結構幾乎相同,生成器多了 AdaLIN 和 Decoder部分
生成器,首先是對端的輸入端進行影像的下取樣,配合殘差塊增強影像特徵提取,接下來就是注意力模組,接著就是對注意力模組通過 AdaLIN 引導下殘差塊,最後通過上取樣得到轉換後的影像。
判別器相對於生成器而言,就是將解碼過程換成判別輸出。
2.1 生成器 GENERATOR
主要涉及的關鍵點就是 ACM 和 AdaLIN
AdaLIN:
結合兩種 Norm 的優勢:
- Layer Norm 更多考量輸入特徵通道之間的相關性,LN比IN風格轉換更徹底,但是語義資訊保存不足
- Instance Norm 更多考慮單個特徵通道的內容,IN比LN更好的保存原影像的語義資訊,但是風格轉換不徹底
2.2 判別器 DISCRIMINATOR
和其他的翻譯模型一樣,這裡的判別器也是一個 multi-scale model,需要和 編碼器,分類器,輔助分類器保持一致。
但是不同於其他模型的是,輔助分類器和判別器會同時訓練用於鑒別影像是真實的還是生成的。
2.3 損失函數 LOSS FUNCTION
- Adversarial loss
描述 translated images 和 target image distribution 之間的差距
- Cycle loss
用於消除模式崩塌問題 mode collapse problem,用這個去限制生成器
- Identity loss
用于衡量輸入和輸出影像的顏色分布差距
- CAM loss
從輔助分類器 auxiliary classifiers 挖掘資訊
- Full objective
最終,同時訓練:編碼器,解碼器,判別器,輔助分類器,以此來優化最後的目標函數
3. EXPERIMENTS
可以看到實際的轉化效果非常好:
- 卡通轉人像
- 適應多種轉換