照這個節奏,AI 連設計師的工作也要搶?

  • 2019 年 12 月 1 日
  • 筆記

Google近日推出一款名為 Auto Draw 的智慧繪畫軟體,顧名思義軟體能夠自動畫畫,在軟體上隨意畫出草圖,然後它就會 Duang 的一下自動給匹配相近的圖片讓你選擇。這是一款特別初級人工智慧軟體,和手機的手寫輸入功能很相似。

繪圖金手指?

同一時期,Ali Eslami 和其他幾名科學家研發了一款更加智慧的、具有仿生思維、能夠自學的繪圖軟體。這款軟體可以做到的事:提供一副圖後它能夠繪製出「副本」,重點在於繪製過程,即軟體擁有繪製影像的能力而並不是像掃描儀一樣簡單的掃描、輸出。

以下是科學家研發思路:

靈感:

我們發現人類看到的不僅僅是事物表面。比如我們看到建築,我們不僅感慨設計的複雜性,也欣賞建築的建造製程。這種能夠透過現象看本質的能力是人類智力高於其他物種的一個重要原因。因此我們希望能做出一款和人類一樣聰明或者模仿人類思維的軟體,比如當看畫的時候,我們希望軟體能夠「理解」畫像是如何繪製的,而不僅僅是分辨畫像的像素。

準備工作:裝備

我們給軟體配備了相同的繪圖工具,發現它可以自動分辨數字、人物和肖像各自不同的構造方式。最重要的是,這些都是它們自主學習達到的,沒有經過數據集訓練。這與其他必須從數據集學習的程式形成了鮮明的對比,但是這樣可能比較耗時。

工程師設計思路

第一步:深度強化學習軟體打底

我們先設計了一個深度強化學習軟體,用以與電腦繪畫程式交互:用電子筆在數位板上畫畫,隨意更改畫筆大小、壓力和顏色。但是因為沒有被訓練過,畫出來的都是隨機筆畫看不出整體的架構。為了解決這個問題,我們決定建立一個獎懲機制,用以鼓勵產出更有價值的影像。

第二步: 甄別器神經網路升級

然後我們設計了一個名為甄別器的神經網路來判定影像是軟體畫的還是真實照片。如果軟體畫出的圖被判定為真實照片,軟體就會得到「獎勵」。其實,軟體的的「獎勵」就是它學會了如何欺騙甄別器。這和之前的神經網路GANS(Generative Adversarial Networks)用的方法相似,但是區別在於GAN是直接輸出像素,我們這款是通過軟體和真實影像環境交互後再輸出影像。

第三步:MNIST&OMNIGLOT數據集訓練

在第一組實驗中,軟體被訓練生成類似於MNIST數據集里的數字影像,通過嘗試生成欺騙甄別器的影像,軟體學會了控制畫筆以適應不同數字的風格,這就是我們常說的可視化程式技術。

第四步:擴散到真人數據集

我們也用特定的影像訓練軟體,要求它生成「複製」影像,然後讓甄別器判定「複製」後的影像是否是軟體生成的和是否是原圖的副本。區分難度越大,「獎勵」越多(軟體學習得越多)。至關重要的是,軟體會儲存一系列控制模擬畫筆的動作。這意味著可以將模擬過程中學習到的應用於其他類似環境中,比如在機器人手臂上應用來模擬真人。影片截圖如下:

還有就是可以將框架擴展到真實的數據集中,在訓練繪製名人臉部表情時,軟體可以捕捉到臉部的主要特徵:形狀、色調、髮型,就像街頭藝術家寥寥數筆就勾勒出一幅肖像。

知其然也知其所以然,是人類很容易擁有並且經常用到的能力,在這項研究中我們成功的讓軟體也能看到一幅畫後「明白」這是如何畫出的。期間,還學會了可視化程式技術和簡潔得表達因果關係。

儘管這僅僅是一個小研究,但後續這類使人工智慧擁有類似人類認知、概括、分析溝通能力的技術必不可少。雖然短期內想要替代設計師是不可能的,甚至都無法替代「Adobe 全家桶」中任意一個,但是也不可否認自動繪圖軟體的出現,的確讓我們看到了人工智慧又一個有趣且前景明朗的應用場景。