OpenAI祭出120億參數魔法模型！從文本合成圖像栩栩如生，彷彿擁有人類的語言想像力

2021 年 1 月 6 日
AI

作者 | OpenAI

編譯 | 貝爽、陳大鑫

前幾個月GPT-3剛剛問世的時候，能夠根據一段話就寫出一個小說、一段哲學語錄，就足以令AI圈為之感到興奮。

然而2020年剛剛開始沒多久，OpenAI又實現一重大突破！

OpenAI最新發佈了一個名叫 DALL·E 的神經網絡模型，它可以魔法一般按照自然語言文字描述直接生成對應圖片！

效果如下所示：

文本提示：鱷梨形狀的扶手椅。

AI生成的圖像：

這生產效果真是堪稱神奇！自然語言與視覺的壁壘正在被逐漸打通。

OpenAI 聯合創始人、首席科學家 Ilya Sutskever 在推特上發文表示道：人工智能的長期目標是構建多模態神經網絡，即AI能夠學習不同模態之間的概念（文本和視覺領域為主），從而更好地理解世界。而 DALL·E 和 CLIP 使我們更接近「多模態 AI 系統」這一目標。

吳恩達對OpenAI也表示祝賀，並挑選了自己最喜歡的藍色襯衫 + 黑色長褲的AI 生成圖。

Keras創始人François Chollet感嘆這看起來非常酷，尤其是「圖像生成」的部分。

「從原理上來看，它應該就是GPT-3在文本合成圖像方向上的擴展版本。」

DALL·E 實際上是GPT-3的120億參數版本，經過訓練可以從文本描述中生成圖像。OpenAI發現它具有多種功能，包括創建擬人化的動物和物體、以合理的方式組合無關概念、渲染文本並將轉換應用於現有的圖像。

DALL·E這個名字是不是聽起來很有熟悉感，其實OpenAI使用了畫家薩爾瓦多·達利（Salvador Dalí）和皮克斯（Pixar）的WALL·E的複合來命名模型。

圖註：西班牙超現實主義畫家薩爾瓦多·達利

圖註：電影機械人總動員中的WALL·E

以下是DALL·E的幾個演示案例。

文本提示：穿着芭蕾舞短裙的蘿蔔寶寶在遛狗。

AI生成的圖像：

文本提示：寫有「openai」字樣的店鋪。

AI生成的圖像：

文本+圖像提示：參照上面的貓在下面生成草圖

AI生成的圖像：

GPT-3已經向我們展示，可以用語言來指示大型神經網絡執行各種文本生成任務。Image GPT則表明，同樣類型的神經網絡也可以用來生成高保真的圖像。OpenAI進一步擴展了這些發現，以表明通過語言操縱視覺概念是觸手可及的。

與GPT-3一樣，DALL·E是一種Transformer語言模型。OpenAI認為，涉及生成模型的工作可能會產生重大而廣泛的社會影響。因此未來，OpenAI會計劃分析像DALL·E這樣的模型如何與社會問題聯繫起來，例如對某些工作流程和專業的經濟影響，模型輸出中可能存在的偏見以及該技術所隱含的長期道德挑戰。

DALL·E的能力

DALL·E能夠為多語言成分結構的各種句子創造似是而非的圖像。研究人員通過一些交互視覺效果舉例說明了這一點。在下面的案例中，每個視覺效果的文本提示都是通過CLIP重新排序後，從512個文本提示中的前32個獲得的，不採取任何手動選取（cherry-picking）。

控制屬性

研究人員測試了DALL·E修改目標物體的能力，包括修改相應的屬性以及出現的次數。

文本提示：五邊形的綠色鍾

AI生成的圖像：

繪製多邊形物體

同時控制多個目標物體、它們的屬性和它們的空間關係是一個新的挑戰。

例如，「一隻戴着紅帽子、黃手套、藍襯衫和綠褲子的刺蝟」。要正確地解釋這句話，DALL·E 不僅要正確地將每件衣服與動物組合在一起，還要將（帽子、紅色）、（手套、黃色）、（襯衫、藍色）和（褲子，綠色）形成各種聯想，而且不能混淆它們。

文本提示：一堆三維立方體：紅色的立方體在綠色立方體的頂部。綠色立方體在中間。藍色立方體在底部。

AI生成的圖像：

雖然DALL·E確實為少量目標的屬性和位置提供了某種程度的可控性，但成功率取決於標題文本的語言措辭。隨着目標的增多，DALL·E容易混淆目標與顏色之間的關聯,成功率會急劇降低。研究人員注意到，在這些場景中，DALL·E對於標題文本的重新表述是脆弱的：可替代的、語義上等價的標題文本通常不會產生正確的解釋。

可視化透視與三維

研究人員發現DALL·E還能夠控制場景的視點和渲染場景的3D樣式。

文本提示：坐在田野上的體素化模型水豚。

AI生成的圖像：

為了進一步驗證DALL·E的這個能力，研究人員測試了DALL·E在同等視角下重複繪製知名人物頭部的能力，並發現DALL·E可以成功恢復旋轉頭部的平滑動畫。

文本提示：荷馬半身像

AI生成的圖像：

DALL·E能夠將某些類型的光學畸變（Optical Distortions）應用到具體場景中，正如我們在「魚眼透鏡視圖（Fisheye Lens View）」和「球形全景圖（Spherical Panorama.）」等場景中看到的那樣。它促使研究人員探索其產生光學反射的能力。

文本提示：一個白色的立方體看着自己在鏡子里的倒影；一個白色的立方體看着鏡子里的自己。

AI生成的圖像：

可視化內部和外部結構

「特寫鏡頭（Extreme Close-up View）」和「x射線（X-Ray）」風格的案例使研究人員進一步探索了DALL·E運用橫截面視角繪製內部結構和用宏觀圖像繪製外部結構的能力。

文本提示：核桃的橫截面圖。

AI生成的圖像：

推斷上下文細節

將文本翻譯成圖像的任務是不明確的：一個標題文本通常可以對應無限多種圖像，換句話說，圖像不是唯一確定的。例如，假如標題文本是「日出時，坐在田野上的水豚的繪畫像。根據水豚的方位，可能需要畫一個陰影，但這個細節沒有被明確提及。

研究人員探討了DALL·E在以下三種情況下解決無規範標準問題的能力：改變風格、設置和時間；在各種不同的情況下繪製同一目標圖像；在生成目標圖像上書寫指定文本。

文本提示：帶有藍色草莓圖案的彩色玻璃窗。

AI生成的圖像：

利用不同程度的可靠性，DALL·E為通過自然語言實現3D渲染引擎功能提供了一種途徑。它可以獨立地控制少量目標的屬性，並在有限的範圍內控制目標的數量以及它們之間的排列方式。它還可以控制渲染場景的位置和角度，並且根據角度和照明條件生成精確且規範的已知目標。

與3D渲染引擎不同，3D渲染引擎的輸入必須明確且完整，當標題文本暗示圖像必須包含未明確的特定細節時，DALL·E通常能夠「填補空白」。

應用案例

接下來，研究人員探討了上述功能在時尚設計和室內設計中的應用。

文本提示：一位穿着橘色和黑色相間襯衫的男性人體模特。

AI生成的圖像：

文本提示：客廳中有兩個白色的扶手椅和一幅斗獸場的畫，這幅畫掛在現代樣式壁爐的上方。

AI生成的圖像：

組合不相關的概念

語言的構成本質使人們能夠將概念描述集成在一起，用以描述真實和虛構的事物。OpenAI發現，DALL·E還具有將完全不同的idea結合起來以合成物體的能力，其中有些物體不可能在現實世界中存在。OpenA在兩種情況下探索這種能力：將各種概念的特質傳遞給動物，以及從不相關的概念中汲取靈感來設計產品。

文本提示：豎琴狀的蝸牛

AI生成的圖像：

文本提示：鱷梨形狀的扶手椅。

AI生成的圖像：

動物插圖描述

在上一部分中探討了DALL·E在生成真實物體的圖像時結合無關概念的能力。接下來，OpenAI通過在藝術的背景下的三種插圖探索這種能力：動物和物體的擬人化版本、動物嵌合體、表情符號。

文本提示：穿着芭蕾舞短裙的蘿蔔寶寶在遛狗。

AI生成的圖像：

文本提示：長頸鹿烏龜合體的專業高質量插圖，模仿烏龜的長頸鹿，由烏龜變成的長頸鹿。

AI生成的圖像：

文本提示：一個專業的高質量的戀愛波霸珍珠奶茶表情符號

AI生成的圖像：

零樣本視覺推理

可以僅根據說明和提示來指示GPT-3執行多種任務，而無需任何額外訓練。例如，當提示短語「將『在公園裡walking狗的人』被翻譯成法語：」時，GPT-3會回答「un homme quipromèneson chien dans le parc。此功能稱為零樣本推理。

OpenAI發現DALL·E將此功能擴展到了視覺領域，並且在以正確的方式提示時，能夠執行多種圖像到圖像的翻譯任務。

文本+圖像提示：參照上面的貓在下面生成草圖。

AI生成的圖像：

文本+圖像提示：畫出和上面一樣的茶壺，並在茶壺上寫上「GPT」。

AI生成的圖像：

OpenAI驚訝地發現DALL·E居然有這種神奇的能力，因為他們沒有對神經網絡或訓練程序進行任何修改。

受這些結果的啟發，OpenAI通過在Raven的漸進矩陣上進行測試來衡量DALL·E對於解決類推推理問題的能力，這是一種視覺智商測試，在20世紀得到了廣泛應用。

文本+圖像提示：一個幾何形狀序列。

AI生成的圖像：

地理知識

OpenAI 發現DALL·E了解地理事實、地標和街區。它對這些概念的了解在某些方面出奇地精確，而在另一些方面卻有缺陷。

文本提示：中國食物的圖片。

AI生成的圖像：

文本+圖像提示：舊金山金門大橋的圖片。

AI生成的圖像：

時間知識

除了探索DALL·E關於隨空間變化的概念的知識外，OpenAI還探索了其隨時間變化的概念的知識。

文本+圖像提示：從20年代起發明的電話的照片。

AI生成的圖像：

總結：方法和先前工作

DALL·E是一個僅有解碼器的Transformer架構，它可以接收1280個token的文本和圖像作為單個流（文本為256個token，圖像為1024個token），並對它們全部進行自動回歸建模。

它的64個自注意力層中的每一個都具有注意力mask，使每個圖像token都可以匹配所有文本token。DALL·E對文本token使用標準的因果mask，以行、列或卷積注意模式對圖像token使用稀疏注意，具體取決於層數。

OpenAI計劃在下一篇論文中提供有關DALL·E架構和訓練過程的詳細信息。

與VQVAE-2中使用的rejection sampling類似，OpenAI使用CLIP對每個文本生成的512個採樣中的前32個進行排名。此過程也可以看作是一種語言指導的搜索，會對樣本質量產生巨大影響。

如下圖所示，使用CLIP對DALL·E中的樣本進行重新排序，可以大大提高樣本的一致性和質量。

文本提示：穿着芭蕾舞短裙的蘿蔔寶寶在遛狗。

AI生成的圖像：

Henry AI Labs在YouTube上分享了一個視頻，簡要介紹了OpenAI的DALL-E模型，並表示「希望可以清楚說明深度神經網絡中文本和圖像是如何作為張量統一的。」

由於是非官方解釋，僅供參考。

最後，大家對DALL·E 這個的神經網絡模型有什麼應用上的期待呢？二維設計師？

又會覺得它會引導什麼AI革命嗎？又或者覺得它會存在很多不可避免的限制？

原文鏈接：

//openai.com/blog/dall-e/

[贈書福利]

AI科技評論本次聯合【博文視點】為大家帶來15本「《labuladong 的算法小抄》」正版新書。

在1月1日頭條文章《我多篇頂會論文在手，面試AI算法崗時竟然還要刷算法題？| 元旦送書福利》留言區暢所欲言，談一談你刷算法的故事，或你對2020的總結或者是對2021年的規劃和心愿，甚至可以是新的一年對AI科技評論的建議和期待，有哪些喜歡看的報道，還希望看到什麼樣的報道？

AI 科技評論將會在留言區選出 15名讀者，每人送出《labuladong 的算法小抄》一本。

活動規則：

1. 在1月1日頭條文章（注意不是本文！）下面留言，留言點贊最高的前 15 位讀者將獲得贈書。獲得贈書的讀者請聯繫 AI 科技評論客服（aitechreview）。

2. 留言內容會有篩選，例如「選我上去」等內容將不會被篩選，亦不會中獎。

3. 本活動時間為2021年1月1日 – 2020年1月7日（23:00），活動推送內僅允許中獎一次。

點擊閱讀原文，直達AAAI小組！

由於微信公眾號試行亂序推送，您可能不再能準時收到AI科技評論的推送。為了第一時間收到AI科技評論的報道，請將「AI科技評論」設為星標賬號，以及常點文末右下角的「在看」。

OpenAI祭出120億參數魔法模型！從文本合成圖像栩栩如生，彷彿擁有人類的語言想像力

VirMach 便宜 VPS

QNews

OpenAI祭出120億參數魔法模型！從文本合成圖像栩栩如生，彷彿擁有人類的語言想像力

分享此文：

Related Posts

【深度學習理論】煉丹術——聊聊Optimization

YOLO5-入門1-極鏈AI雲平台部署測試

今冬寒冷的原因是什麼？專家解釋

Transformer又來搞事情！百萬像素高清圖輕鬆合成，效果迷人

VirMach 便宜 VPS

QNews

熱門搜尋