­

影像合成神器 MSG-GAN入選CVPR2020,超越最先進GAN,穩定多尺度高解析度


新智元報道

來源:arxiv

新智元編輯部

【新智元導讀】今天分享一篇被CVPR 2020接收的論文,該文提出了多尺度梯度生成對抗網路(MSG-GAN),這是一種簡單而有效的技術,為高解析度影像合成提供了一種穩定的方法,並作為常用的漸進生長技術的替代。與最先進的GAN相比,本文的方法在嘗試的大多數情況下都與之媲美或超越其性能。「新智元急聘主筆、高級主任編輯,添加HR微信(Dr-wly)或掃描文末二維碼了解詳情。」

今天分享一篇被CVPR 2020接收的論文,這篇論文與生成對抗GAN相關,題目為「MSG-GAN: Multi-Scale Gradient GAN for Stable Image Synthesis」(MSG-GAN:用於穩定影像合成的多尺度梯度GAN)。

摘要

雖然生成對抗網路在影像合成任務中取得了巨大的成功,但眾所周知,它們很難適應不同的數據集,部分原因是訓練過程中的不穩定性和對超參數的敏感性。這種不穩定性的一個普遍接受的原因是,當真實和虛假分布的支援沒有足夠的重疊時,從鑒別器到發生器的梯度變得不具資訊性。本文提出了多尺度梯度生成對抗網路(MSG-GAN),這是一種簡單而有效的技術,通過允許梯度流從鑒別器到發生器在多個尺度上流動來解決這個問題。該技術為高解析度影像合成提供了一種穩定的方法,並作為常用的漸進生長技術的替代。結果表明,MSG-GAN在不同大小、解析度和域的多種影像數據集上,以及不同類型的丟失函數和結構上都穩定收斂,且具有相同的固定超參數集。與最先進的GAN相比,在我們嘗試的大多數情況下,我們的方法都能與之媲美或超越其性能。

圖1:MSG-GAN技術的結果

引言:GAN訓練存在兩個比較嚴重的缺陷

生成式對抗網路(Generative Adversarial Networks,GANs)是蒙特利爾大學的Ian Goodfellow於2014年提出的一種生成模型,目前已經成為高品質影像合成的業界標準。

Ian Goodfellow

GAN的成功來自於這樣一個事實,即它們不需要手動設計的損失函數來進行優化,而且能夠生成複雜的數據分布,且無需進行明確定義。儘管基於流量的模型允許直接使用最大似然估計(顯式和隱式)訓練生成模型,但生成影像的保真度並未能夠與最新的GAN模型相匹配。但是,GAN訓練存在兩個比較嚴重的缺陷:(1)模式崩潰問題和(2)訓練的不穩定性

當發生器網路僅能夠捕獲數據分布中存在的方差子集時,就會發生模式崩潰的問題。儘管很多論述試圖解決這個問題,目前這仍是一個開放的研究領域。但在此項研究中,我們解決了訓練不穩定的問題。這是GAN的一個基本問題,在過往的研究著述中已被廣泛報道。

我們研究了,在不依賴於先前方法(例如漸進式增長技術)的情況下,如何利用不同尺度的梯度生成高解析度影像。這可以解決訓練的不穩定性問題。

圖2:我們的架構包括從發生器的中間層到判別器的中間層的連接。

MSG-GAN允許判別器不僅查看生成器的最終輸出結果(最高解析度),而且還可以查看中間層的輸出結果(圖2)。結果,判別器成為發生器的多個標度輸出的函數,並且重要的是,將梯度同時傳遞給所有標度。

此外,我們的方法對於不同的損失函數(我們展示了WGAN-GP和具有單側梯度罰分的非飽和GAN損失的結果),數據集(我們在各種常用數據集和新創建的Indian Celebs數據集上演示結果)和體系架構(我們將MSG方法與ProGAN和StyleGAN基礎架構集成在一起)具有魯棒性。就和漸進式增長一樣,我們注意到,多尺度梯度在FID得分方面相比於原始DCGAN體系架構有顯著提高

但是,我們的方法相比於現有的方法,在訓練時間相同的情況下在大多數現有數據集上性能較優,而無需額外的超參數(漸進式增長需要引入超參數),例如不同生成階段的訓練時間表和學習速率。這種魯棒性使得MSG-GAN方法可以很容易地在新數據集上「開箱即用」。而相比之下,如果使用基於漸進式增長的方法,則在和之前相同的超參數集上效果不佳(請參見表1和2)。我們還通過對高解析度FFHQ數據集進行消融實驗,表明了在所有解析度下進行多尺度連接的重要性。

總而言之,我們有如下貢獻:

1. 我們引入了一種用於影像合成的多尺度梯度技術,該技術提升了訓練的穩定性。

2. 我們能夠在許多常用數據集上魯棒地生成高品質樣本。

實驗:所有模型都使用RMSprop進行訓練

實驗雖然評估GAN生成的影像的品質並不是一件容易的事,但當今最常用的指標是初始得分(IS,越高越好)和Frechet´初始距離(FID,越低越好)。為了將我們的結果與以前的工作進行比較,我們將IS用於CIFAR10實驗,將FID用於其餘實驗,並報告「顯示的真實影像數量」,如先前的工作所示。

新的印度名人數據集

除了現有的數據集外,我們還收集了一個由印度名人組成的新數據集。我們獲取新數據集的目的是嘗試使用非常小的尺寸(就影像數量而言)的數據集,因為GAN社區已經表明,數據集的尺寸對於創建良好的生成模型很重要。為此,我們使用類似於CelebA-HQ的過程收集了影像。首先,我們通過抓取相關搜索查詢的網頁來下載印度名人的影像。然後,我們使用現成的面部檢測器檢測到面部,並裁剪所有影像並將其調整為256×256的大小。最後,我們通過濾除低品質,錯誤和低光照的影像來手動清理影像。最後,數據集僅包含3K個樣本,比CelebA-HQ小一個數量級。該數據集將被公開以供研究。

實現細節

我們將在解析度和大小(影像數量)不同,解析度高的各種數據集上評估我們的方法。CIFAR10(60x影像,解析度為32×32);牛津花(8K影像,解析度為256×256),LSUN教堂(126K影像,解析度為256×256),印度名人(3K影像,解析度為256×256),CelebA-HQ(3萬影像,解析度為1024×1024)和FFHQ(70K影像,解析度為1024×1024)。

圖3:由MSG-StyleGAN在不同的中級解析度(256×256)數據集上生成的隨機,未整理的樣本。我們的方法用相同超參數就可以在所有數據集中生成高品質的結果。

表1:在中級解析度(即256×256)數據集上進行的實驗。我們儘可能使用作者提供的分數,否則使用官方程式碼和建議的超參數(表示為「 *」)訓練模型。

對於每個數據集,我們使用相同的初始潛在維數512,從標準正態分布N(0,I)得出,然後進行超球面歸一化。對於所有實驗,我們對MSG-ProGAN和MSG-StyleGAN使用相同的超參數設置(lr = 0.003),唯一的區別是上取樣層的數量(較低解析度的數據集較少)。

圖4: MSG-StyleGAN在高解析度(1024×1024)數據集上生成的隨機,未整理的樣本

表2:在高解析度(1024×1024)數據集上進行的實驗。我們儘可能使用作者提供的分數,否則使用官方程式碼和推薦的超參數(表示為「 *」)訓練模型。

所有模型都使用RMSprop進行了訓練,生成器和鑒別器的學習率均為0.003。我們根據標準正態N(0,I)分布初始化生成器和鑒別器的參數。為了與先前發表的工作相匹配,所有StyleGAN和MSG-StyleGAN模型都經過帶有單面GP的非飽和GAN損耗訓練,而ProGAN和MSGProGAN模型都具有WGAN-GP損耗函數進行訓練。

圖5:訓練早期MSG-GAN中的所有層生成結果的解析度幾乎是同步的,隨後在所有解析度下生成影像的品質同時提高。在整個訓練過程中,生成器僅對影像的潛在固定點進行最小的增量改進。

圖6:訓練期間的影像穩定性。這些圖顯示了在CelebA-HQ數據集上,從相同潛在程式碼生成的影像在連續epoch下的MSE(36個潛在樣本平均值)。MSG-ProGAN會隨著時間穩定收斂,而ProGANs在各個時期仍會有很大的變化。

我們還擴展了MinBatchStdDev技術,將一批激活的平均標準偏差饋送到鑒別器,以提高樣本多樣性,從而達到我們的多尺度設置。為此,我們在鑒別符中每個塊的開頭添加一個單獨的MinBatchStdDev層。這樣,鑒別器獲得所生成樣本的批統計以及每個尺度上的直線路徑激活,並且可以檢測到生成器在某種程度上的模式崩潰。

表3:CIFAR-10的學習率魯棒性。我們看到,在一系列學習率範圍內我們的方法收斂到相似的IS分數。

表4:高解析度(1024×1024)FFHQ數據集上不同程度的多尺度梯度連接的消融實驗。較差的包含(4×4)和(8×8)的連接,中間的包含(16×16)和(32×32)的連接;較好的是(64×64)和(1024×1024)。

表5:在高解析度(1024×1024)FFHQ數據集上使用不同的合併方程進行的實驗。

當我們自己訓練模型時,我們報告訓練時間和使用的GPU,並在可能的情況下嘗試使用相同的機器,以便可以直接進行訓練時間比較(除Oxford Flowers ProGAN與MSG-ProGAN以外的所有情況)。所顯示的實際影像數量和訓練時間的變化是由於以下事實:按照慣例,我們報告了在固定次數的迭代中獲得的最佳FID得分,以及達到該得分所花費的時間。複製研究工作所需的所有程式碼和經過訓練的模型都可以在https://github.com/akanimax / msg-stylegan-tf上用於研究目的。

討論:真正的照片真實性還未實現

局限性和未來工作

我們的方法並非沒有局限性。我們注意到,使用漸進式訓練,以較低的解析度進行的第一組迭代要快得多,而MSG-GAN的每次迭代花費的時間相同。但是,我們觀察到MSG-GAN需要更少的總迭代次數才能達到相同的FID,並且通常在總訓練時間相似的情況下才這樣。

最後,我們注意到,在FFHQ和CelebAHQ的面部數據集上,我們沒有超過StyleGAN的生成品質。造成這種情況的原因很多,其中包括超參數選擇不當,或者StyleGANs架構更適合這些數據集。另外,由於我們在MSGStyleGAN中進行了多尺度修正,因此我們的方法無法利用混合正則化技巧,在混合技巧中,將多個潛在矢量進行混合,並且由鑒別器強製得到的影像是真實的。這樣做是為了允許在測試時在不同級別混合不同樣式,同時也提高了整體品質。有趣的是,即使我們沒有明確強制執行混合正則化,我們的方法仍然能夠生成合理的混合結果。儘管沒有提高FFHQ上的FID分數,但我們的方法在其他數據集上的分數更高,並且引入了一種易於使用的高解析度合成新方法,可能會激發後續工作,從而進一步提高結果品質。

結論

儘管在實現逼真的高解析度影像合成方面已取得了巨大的進步,但真正的照片真實性還沒有實現,特別是在外觀上存在很大差異的領域方面。在這項工作中,我們介紹了MSG-GAN技術,以一種簡單的方法,利用GAN生成高解析度的多尺度影像。