百度飛槳PaddlePaddle論文復現訓練營——論文閱讀筆記:U-GAT-IT

一、寫在前面

感謝百度組織這次論文復現活動,感興趣的朋友也可以點擊鏈接參加:

//aistudio.baidu.com/aistudio/education/group/info/1340

二、論文背景

自 2014 年Goodfellow等人發表了最初的 Generative Adversarial Networks 論文以後,關於 GAN 的研究成為電腦業界的大熱門,隨後的發展脈絡集中於兩條主線,一條是針對GAN理論的基礎研究和改進,另一條則側重於應用,而 U-GAT-IT 這篇論文就是 2020 ICLR 上非常亮眼的作品。

  • 前置論文推薦:
    • Generative Adversarial Nets
    • UNSUPERVISED REPRESENTATION LEARNING WITH DEEP CONVOLUTIONAL GENERATIVE ADVERSARIAL NETWORKS
    • Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks

三、論文閱讀筆記

1. Introduction

Image-to-image translation可以應用在很多電腦視覺任務:

  • 影像分割
  • 影像修復
  • 影像著色
  • 影像超解析度
  • 影像風格(場景)變換等

而 GAN 的優勢在於:不僅僅在模型訓練的收斂速度上,同時在影像轉換品質上展示了優越的結果。相比傳統的 Pixel CNN、VAE、Glow 優勢非常明顯。所以近年關於 GAN 的研究非常多。

而「影像翻譯」則是 GAN 應用的第一步:

  • 跨模態間的轉換
  • 文本到影像
  • 文本到影片
  • 語音到影片等

這種端到端,希望實現一個分布到另一個分布轉換,GAN 都是可以有一定的作用。

該論文提出了現在 Image-to-image translation 依然存在很多問題,比如現在只能實現人到人的轉換,狗到狗的轉換等,差異情況較大的就難以轉換,比如在貓到狗或者是僅僅是語義聯繫的影像轉換上的表現則不佳。

U-GAT-IT 的出現,正是為了實現跨域轉換的魯棒性

  • 兩大創新點:
    • 新的注意力機制 a new attention module,採用全局和平均池化下的類激活圖(Class Activation Map-CAM)來實現的,通過 CNN 確定分類依據的位置。
    • 新的自適應歸一化函數 a new learnable normalization function,幫助注意力引導模型靈活控制形狀和紋理的變化量。

2. Model

截屏2020-08-06 上午10.34.21.png

模型分為生成器和判別器,兩者結構幾乎相同,生成器多了 AdaLIN 和 Decoder部分

生成器,首先是對端的輸入端進行影像的下取樣,配合殘差塊增強影像特徵提取,接下來就是注意力模組,接著就是對注意力模組通過 AdaLIN 引導下殘差塊,最後通過上取樣得到轉換後的影像。

判別器相對於生成器而言,就是將解碼過程換成判別輸出。

2.1 生成器 GENERATOR

主要涉及的關鍵點就是 ACM 和 AdaLIN

AdaLIN:

截屏2020-08-06 上午10.34.32.png

結合兩種 Norm 的優勢:
截屏2020-08-06 上午10.36.04.png

  • Layer Norm 更多考量輸入特徵通道之間的相關性,LN比IN風格轉換更徹底,但是語義資訊保存不足
  • Instance Norm 更多考慮單個特徵通道的內容,IN比LN更好的保存原影像的語義資訊,但是風格轉換不徹底

2.2 判別器 DISCRIMINATOR

和其他的翻譯模型一樣,這裡的判別器也是一個 multi-scale model,需要和 編碼器,分類器,輔助分類器保持一致。

但是不同於其他模型的是,輔助分類器和判別器會同時訓練用於鑒別影像是真實的還是生成的。

2.3 損失函數 LOSS FUNCTION

  • Adversarial loss

描述 translated images 和 target image distribution 之間的差距
截屏2020-08-06 上午10.34.41.png

  • Cycle loss

用於消除模式崩塌問題 mode collapse problem,用這個去限制生成器
截屏2020-08-06 上午10.34.46.png

  • Identity loss

用于衡量輸入和輸出影像的顏色分布差距
截屏2020-08-06 上午10.34.50.png

  • CAM loss

從輔助分類器 auxiliary classifiers 挖掘資訊
截屏2020-08-06 上午10.34.56.png

  • Full objective

最終,同時訓練:編碼器,解碼器,判別器,輔助分類器,以此來優化最後的目標函數
截屏2020-08-06 上午10.35.07.png

3. EXPERIMENTS

可以看到實際的轉化效果非常好:

  • 卡通轉人像

截屏2020-08-06 上午10.35.28.png

  • 適應多種轉換

截屏2020-08-06 上午10.35.38.png