NVIDIA 又一次突破想像力：一句話實時P圖在線試玩 - ⎝⎛CodingNote.cc ⎞⎠

NVIDIA 又一次突破想像力：一句話實時P圖在線試玩

2021 年 11 月 23 日
資訊
NVIDIA

在「一句話生成照片」這件事上，NVIDIA 又一次突破了大夥的想像力。

他們最新的AI模型GauGAN2，不僅能根據字詞生成逼真風景照，還能實時用文字P圖！

輸入一句「海浪擊打岸邊石」，立刻輸出一張逼真照片：

從單詞到短語，這隻AI全都能get！

那感覺，簡直是要山得山，要水得水：

要是覺得哪部分你不喜歡，直接打字就能「P圖」：

上面這些效果，都是NVIDIA 這個叫做「GauGAN2」的模型做出來的，而它的「完整版」功能，還遠不止這些。

從草圖到文字，都能生成風景照

GauGAN2的繪製模式，一共分為三種。

第一種，打字生成圖片。

我們先試了一下單個片語，「陽光（sunshine）」，生成如下圖片：

加上限定詞in the forest後，AI立刻就將場景換到了樹林里，變成光灑在樹林中的場景：

再多來點限定詞也沒問題。

像「冬日樹林中的陽光」，輸入in winter後，眼前本來鬱鬱蔥蔥的樹林立刻「全禿了」，換成了雪景下的一幕：

這效果，u1s1（有一說一）確實不錯。

還能輸出不同style的風景圖，例如輸入「大山（mountain）」一詞，立刻要山有山，還能給你換不同風格：

當然，這些不同的風景照也都能繼續生成新細節，在mountain後加上「beside a river」就能生成山水：

第二種，「打字P圖」，直接用文字編輯部分影像。

只需要把想替換掉的部分圈出來，輸入你想要的東西，就能立刻造出各種新穎的風景圖：

嗯……NVIDIA 給出的這個demo，思路也是非常清奇了，「浮在空中的城堡」：

第三種，用塗鴉生成風景照。

這是上一代GauGAN2（2019年NVIDIA 推出的GauGAN）的看家本領。

例如，要是想實現下面這樣的「一片天空兩個太陽」，就完全可以在通過文本生成的影像上，自己手動再加一個。

這幾種玩法疊加在一起，簡直讓網友們腦洞大開。

像外媒ZDNet就惡搞出來了一種神奇的玩法，在已有的風景上畫個人頭：

然後讓GauGAN2根據已有的畫面，再重新生成圖畫，就會得到如下「人頭海島」的神奇景觀：

不過這可能也對個人畫技有所要求，在我們的靈魂畫風下，效果看上去就有些……不太聰明的亞子。

那麼，生成這一系列風景照的GauGAN2，背後究竟用了什麼原理？

它與OpenAI今年發布的DALL·E和CLIP，又究竟有什麼區別？

與DALL·E有什麼不同？

2019年，NVIDIA GauGAN2的「前身」GauGAN正式開源。

當時的它，還只擁有其中一個能力，就是將塗鴉直接變成風景畫，就像「神筆馬良」一樣，還推出了對應的軟體Canvas：

當然，這時GauGAN已經能隨意改變畫面風格了，從白天黑夜到春夏秋冬的氣質都能穩穩「拿捏」：

據NVIDIA 介紹，GauGAN採用了一種基於空間適應標準化（SPADE）演算法。

SPADE演算法不僅使用隨機的輸入影像，還採用了一種被稱作「分割圖」的影像。在分割圖中，每一個像素都會被歸類，來生成更接近於真實的影像，這種模式被稱作「圖對圖翻譯」。

△GauGAN的技能點（狗頭）

現在，NVIDIA 將GauGAN升級成了GauGAN2，後者一共採用了1000萬張高品質的圖片、在NVIDIA Selene超頻上進行訓練，這台超頻在Green500排行榜上排到世界第二。

生成這些風景畫的效果和「手法」，是不是感覺有點熟悉？

沒錯，大多數人看到GauGAN2的第一眼，可能都會覺得它和OpenAI的DALL·E+CLIP有點像。

今年年初，OpenAI用DALL·E和CLIP兩個模型，做了個「影像版」GPT-3，同樣能用一句話生成圖片。

不過，這兩個模型生成的內容其實不太一樣。

GauGAN2專註於生成風景照，DALL·E+CLIP則更多地生成具體的物體，例如一把椅子或者一個鬧鐘等。

這與它們的原理差異也有關係，GauGAN2更加註重「單詞與視覺效果」之間的關係，例如「冬天」這種模糊的狀態詞給照片帶來的效果；DALL·E+CLIP則更注重「文字-影像」這種有明確對應關係的物體效果。

據NVIDIA 介紹，GauGAN2不同於「文本-影像」和「分割影像-影像」一類的模型，它所能產生的照片種類更多，品質也會更高。

不過，偶爾也會出現點bug…

比如給出「沙灘（beach）」一詞後，有些生成的畫面中出現了語言無法描述的事物。

對此，NVIDIA 表示，他們在訓練中「完全沒有用到任何人像照片」。（所以可能是偶然？）

但這樣一來，網友想要的「瑞克搖（Rick roll）」和「鬼畜影片生成」，GauGAN2大概也是沒辦法實現了。

但是能生成彷彿夢境中才能見到的畫面，也吸引了不少人來試玩。

這不，有人就曬出了自己生成的抽象畫大作，並表示自己非常喜歡這個模型：

還有人表示，GauGAN2給出了一些建築設計的新idea啊。

也有網友覺得這種能夠自動生成景觀的功能，未來Adobe可能也會用上。

或許就是下一個畫手利器？

最後，GauGAN2在瀏覽器上就能試玩，歡迎大家留言討論自己的體驗感受~

GauGAN2試玩Demo地址：//gaugan.org/gaugan2/

Tags: NVIDIA

Previous post

英國人不願意賣掉ARM 老黃恐損失80億

Next post

1米C-SAR衛星上天！中國海洋監測網織成