StyleGAN3問世,等變性perfect!皮膚、毛髮不再粘屏幕,還能360度旋轉 | 已開源

  • 2021 年 10 月 13 日
  • AI
AI科技評論報道
作者 | 琰琰、青暮

太狂野了!

你永遠不知道StyleGAN的想像力可以有多強大。 

剛剛英偉達最新推出的升級版StyleGAN 3,因為一組合成藝術作品刷爆Twitter,不少網友感嘆:AI 製造了人類無法理解的恐怖!

而更令人震驚的是,除了強大的藝術創作能力,是它沒有幻影的絲滑級過渡,以及對細節的高精度處理!

StyleGAN生成式對抗網絡是一種最先進的高分辨率圖像合成方法,從最初的GAN到StyleGAN2變體,其圖像合成能力一直在突破人類的想像,而這次升級版StyleGAN3的對生成細節的把控更是令人驚嘆!

AI科技評論發現,這項研究出自英偉達最新論文《Alias-Free Generative Adversarial Networks》,論文中表明,它從根本上解決了StyleGAN2 圖像坐標與特徵粘連的問題,實現了真正的圖像平移、旋轉等不變性,大幅提高了圖像合成質量。

何謂等變性?簡單理解就是生成的物體和圖像的像素坐標沒關係,仔細看下圖:

你會發現StyleGAN2生成的動物毛髮會粘在屏幕上,和動物的形態變化不一致。這就是StyleGAN變體一直無法解決的難題之一。果然魔鬼都在細節里! 

1

StyleGAN3的魔力

我們知道,儘管生成式對抗網絡具有層級卷積的性質,但由於過度依賴絕對像素坐標往往會出現圖像細節「粘」在坐標上的現象,原因多出自」粗糙「的信號處理過程和神經網絡混疊上。

在這項研究中,英偉達將網絡中的所有信號解釋為連續的,並對架構進行輕微調整保證不需要的信息不會泄漏到分層合成過程,最終得到了StyleGAN3,相比於StyleGAN2,它在保證了圖像基本質量的同時,明顯改善了其內部的表示方式——即使在亞像素尺度上也能實現絕對的平移和旋轉。

項目主頁://nvlabs.github.io/stylegan3/

雖然生成式對抗網絡(generative adversarial networks, GAN)已被廣泛用於各種應用,包括圖像編輯、圖像翻譯以及視頻生成,現有的控制生成的模型也達到了很高的水平,但總體而言,在合成過程的基礎層面仍有極大的改善空間。

在現實世界中,圖像在不同尺度上的細節往往是層次變化的。例如,頭部的移動可能導致頭髮、鼻子,甚至皮膚上毛孔隨之改變。

通常,典型GAN生成器的結構化處理過程是:粗糙、低分辨率的特徵通過上採樣層分層細化,再通過卷積局部混合,以及非線性引入新的細節。這種體系結構可能基本還原了圖像的表面特徵,但它並沒有以一種「自然而然」的方式合成更逼真的圖像,也就是說,粗糙特徵確保了圖像細節的存在,但沒有控制它們的精確位置,細節被固定在了圖像坐標上。

所形成的「紋理粘附」特徵在隱藏表示的插值中清晰可見,打破了動態物體在空間中移動的連貫性。

這項研究的目標就是,創建更自然的轉換層次的體系結構,讓每個特徵的精確亞像素位置都從底層粗特徵中獲得。我們再來看一組最終的效果圖:

可以看到,在頭部移動的情況下,左圖 StyleGAN2 生成的頭髮、皺紋等粘在了屏幕坐標上,而右圖StyleGAN3生成的所有細節都可以連貫地轉換,效果絲滑。

在 MetFaces 、animal數據集中的效果同樣如此,StyleGAN3中的場景與其餘部分平滑地轉換。

還可以注意到,在風景圖生成中,StyleGAN3似乎已經學會模仿鏡頭運動(beach數據集)。

下圖展示了幾種「橋式(bridge)」配置中平移等變性或缺乏平移等變性的現象。

第一列圖像是利用具有解析傅立葉輸入特徵的生成器生成的圖像;第二列圖像基於第一列圖像,通過使用高質量的重採樣濾波器進行反向平移來「不變換」像素。

第三列圖像展示了前兩列圖像的不同。對於完美「等變」生成器(第5張圖和第6張圖),前兩列圖像是相同的,由模圖像邊界(由於光裁剪而未顯示)和重採樣產生數字噪聲。可以看出,在60 dB範圍內,其在視覺上堪稱完美。

下圖以類似於上圖的方式說明了StyleGAN3的旋轉等變性。

第一行中的StyleGAN3-T只為平移等變性而設計,正如預期的那樣,它在旋轉不變性上完全失敗了。第二行展示的是StyleGAN3-T的一種變體,它使用p4對稱G-CNN實現旋轉等變。在360度的人臉旋轉中,在90度的倍數處是精確的,但在中間角度處會發生扭曲。而StyleGAN3-R展示了高保真的旋轉等變性(儘管視覺上還不算完美)。

下圖演示了點態非線性(這裡是ReLU)固有的混疊,以及StyleGAN3的解決方案。

 

左列:原始限帶信號z,對其理想版本(上)進行採樣(中),然後根據採樣(下)進行重構。由於採樣率足夠高,可以捕獲信號,因此不會發生混疊。 

中間列:在連續域(頂部)應用點向非線性會產生一個非光滑函數,這是由於在零交叉點處的剪切。採樣這個信號(中間)並從樣本(底部)重建函數會產生一個混疊的結果,因為由裁剪產生的高頻不能用樣本網格表示。 

右列:在連續域中對ReLUed函數應用低通濾波器(上),再次得到平滑函數:對它進行採樣(中間)可以實現真實的重構(底部)。 

下圖比較了StyleGAN3和StyleGAN2(第一行)的內部激活模式。StyleGAN3-T(中間,平移等變)和StyleGAN3-R(底部,旋轉等變)兩個等變網絡構建圖像的方式,與StyleGAN2的最終圖像中遵循特徵的多尺度相位信號的方式完全不同。

基於StyleGAN3的構造,這些信號必須控制圖像特徵的外觀和相對位置。研究人員假設局部定向振蕩形成一個基底,從而使分層定位成為可能。StyleGAN3的構造似乎使網絡很自然地從低頻輸入的傅里葉特徵構造圖像。

下圖解釋了切片可視化對比,表明在人臉平移時,對於某個固定的坐標切片,StyleGAN3可以隨人臉移動變化紋理,而StyleGAN2則傾向於生成固定的紋理。

 

2

StyleGAN3的技術創新

以上示例證明,StyleGAN 的層次結構通過圖像邊界、像素噪聲輸入和位置編碼以及混疊,可以利用中間層實現位置精確。

在GAN的相關文獻中,混疊這一概念很少被提及,作者在這項研究中,提供了兩個混疊來源 :1)由非理想上採樣濾波器(如卷積、雙線性卷積或跨步卷積)產生的像素網格後模糊圖像。2)非線性的逐點應用,如ReLU或swish。

他們發現,混疊網絡具有放大並在多個尺度上組合圖像像素的能力,這對於弱化固定在屏幕坐標中的紋理圖案至關重要。並且實驗證明,該網絡還適用於深度學習中所有常用過濾器,甚至圖像處理中使用的高質量過濾器。

我們知道,成功消除所有位置參考來源意味着無論像素坐標如何,細節都可以被很好地生成,它相當於在所有層中對亞像素平移(和旋轉)實施連續的等方差。

事實證明,當前的上採樣濾波器在抑制混疊方面根本不夠積極,而且需要具有超過100dB衰減的高質量濾波器。這項研究提出了一種解決點態非線性引起的混疊的原理,考慮了它們在連續域的影響,並對結果進行適當的低通濾波。

此外,實驗證明:一個基於1×1卷積的模型能夠產生強旋轉的等變生成器。一旦適當地抑制了混疊以迫使模型實現更自然的層次細化,它的操作模式就會發現顯著變化:坐標系統等內部表示,允許細節準確地附加到底層表面。這將顯著改進用於生成視頻和動畫的模型。

效果如此完美,真的不是cherry-picking? 

英偉達也怕你不服氣,火速開源了項目,還提供了colab供小白嘗試。

參考資料

項目主頁://nvlabs.github.io/stylegan3/

論文地址://arxiv.org/pdf/2106.12423.pdf

Github地址://github.com/NVlabs/stylegan3

colab://colab.research.google.com/drive/1BXNHZBai-pXtP-ncliouXo_kUiG1Pq7M?usp=sharing

//news.ycombinator.com/item?id=28833213

雷鋒網