斯坦福李飛飛新作登 PNAS:AI 與人類互動才能提高智慧水平

  • 2022 年 9 月 29 日
  • AI
作者 | 李梅
編輯 | 陳彩嫻
人類從與他人的互動中學習,而目前的人工智慧卻常常只能在與社會隔離的環境中學習。所以當我們把一個智慧體放到真實世界中時,它會不可避免地在遇到大量新的數據,無法應對不斷變化的新需求。
如何將智慧體從只有一堆書的房間里「解放」出來,讓它在廣闊的社會情境中學習,是一個新的挑戰。
最近,斯坦福大學電腦系的 Ranjay Krishna、Donsuk Lee、李飛飛、Michael Bernstein 等人針對此問題提出了一種新的研究框架:社會化人工智慧(socially situated AI),即智慧體通過在現實社會環境中與人的持續互動來學習。論文「Socially situated artificial intelligence enables learning from human interaction」已發表在美國科學院院刊(PNAS)上。

論文地址://www.pnas.org/doi/epdf/10.1073/pnas.2115730119

在這項工作中,研究團隊將社會化 AI 形式化為一個強化學習的過程,即智慧體通過從社會互動中獲取的獎勵來學習識別有資訊量的問題。在一個視覺問答任務的測試中,與其他智慧體相比,社會化智慧體識別新視覺資訊的性能提高了 112%。


1

社會化 AI 的強化學習框架
目前,在迭代擴展模型能力時,主動學習是最常用的一個框架。它的目標是優化一系列標註請求以獲取新的數據,並將新數據將用於以儘可能少的請求來提高模型的性能。
主動學習已經被形式化為強化學習的過程,其中,真正的人類角色被移除,只假設存在一個能為所有請求提供標籤的「預言機」。
儘管純粹的主動學習方法也可以通過社會環境中的互動來收集新數據,但從用戶角度看,他們並不原意充當「預言機」的角色來做重複提供標籤的勞動,這就打破了主動學習的基本假設。
所以,我們必須探索智慧體真正與人交互的學習方法。要開發社會化的 AI,智慧體不僅要收集數據來學習新概念,還要學習如何與人互動來收集數據。
而且,智慧體必須要在交互學習(interacting to learn)和學習交互(learning to interact)這兩個目標之間進行權衡。這非常具有挑戰性,因為智慧體要遍歷的可能交互空間是巨大的,只有一部分社會交互空間是有用的,並且資訊交互空間還會隨著智慧體的學習進程而不斷變化。
在強化學習中,我們將可能的交互形式化為行動空間,將回饋形式化為獎勵,需要數億次交互才能獲得具有資訊量和親社會的交互的子空間,這讓很多研究人員望而卻步。所以,目前從與人類交互中學習的方法,通常只局限於人工標註或者小的工作空間(如只有幾十個動作的遊戲和模擬環境)。
為此,研究團隊將社會化的 AI 形式化為一個迭代強化學習問題。

圖註:社會化 AI 的強化學習框架
其框架描述如下:
一個智慧體被放置在社會環境 E=(S,A,P,P0) 當中,它的目標是收集數據,以儘可能少的交互來優化模型的性能;
S 是環境狀態,如對話智慧體的對話歷史,或機器人智慧體在三維世界中當前位置;
A 是智慧體可以發起的與人交互的可能空間,如對話智慧體可以詢問的一組語句,或機器人智慧體可以執行的一組動作。;
P:S × A → S 是過渡動力學(transition dynamics),如使用過渡函數(transition function)編碼人們對智慧體歷史行為的反應以及環境的變化。;
最後,P0 是初始狀態分布的概率測度。
總結而言,這樣一個迭代強化學習的過程包括三個重要的方面:改進底層模型、發現社會規範、更新交互策略。它們貫穿著智慧體的整個生命周期。
其中,智慧體在人們可能會或可能不會做出資訊回應的社會環境中與人進行互動,從而改進底層模型。只有當人的回應包含對智慧體有用的新資訊時,回應才是有用的。因此,智慧體必須與環境中數十萬人的單次交互,從中選擇能夠引發對模型有用的新概念的社會互動。
為了平衡智慧體的交互學習和學習交互兩個目標,我們可以引入知識獎勵(knowledge reward)來引導智慧體進行交互以獲得有用的新概念;同時採用交互獎勵(interaction reward)來引導智慧體進行符合環境中社會規範的交互。
在使用新概念改進模型的基礎上,智慧體會更新其策略,開始學習如何就人們有興趣回應的新概念提出問題,來改進自身性能還比較差的部分。



2

從問答互動中改進視覺模型
為了驗證社會化 AI 框架在電腦視覺中的實用性,作者在照片共享社交網路應用 Instagram 上部署了一個社會化智慧體,它向人們提出自然語言問題,並從人的回應中提取答案,收集視覺知識。
這種使用自然語言來獲取視覺知識的方法,可以用來測試很多電腦視覺識別任務,如對象檢測(「影像中有什麼?」)、細粒度識別(「花瓶里是什麼花?」)、屬性分類(「這張桌子是用什麼材料做的?」)、知識庫推理(「這份食物是素食嗎?」)和常識推理(「這張照片是在冬天拍攝的嗎?」)等等。
在這項工作中,研究團隊設計了一個電腦視覺問答模型,其輸入是一張影像和相應的自然語言問題,輸出是一個自然語言答案。智慧體提出的問題非常多樣,如下圖。

圖註:社會化智慧體在社交媒體上發起的互動示例
智慧體的目標是從與人的交互中獲得數據,提高模型識別視覺概念的能力。為了達到這個目標,智慧體需要一些「獎勵」。如上文所述的框架,作者引入了知識獎勵和互動獎勵。
知識獎勵衡量模型的在識別任務中的確定性。在剛開始,識別模型不知道如何識別任何概念,但隨著看到的特定概念的增長,它會對自己的判斷更加肯定。比如,如果人們幫助智慧體將影像中的動物識別為鹿,那麼它的不確定性就會減少。
交互獎勵則引導智慧體的行為符合社區規範。如在社交網路中,人們更喜歡回答較短的問題、提供事實知識以及迴避含糊不清的問題。所以智慧體的每一次交互都會被標記為積極(產生了新資訊)或消極(未獲得新資訊),從而被不斷訓練成親社會的。
最後,是如何尋找有用的語言交互問題。這是一個組合性的搜索問題。一種直接的方法可以將智慧體的策略設計成一個從影像到提問的生成模型。隨著模型性能的提升,資訊交互的空間會不斷變化,因此組合搜索過程需要反覆重複。
為了使搜索過程更易於處理,作者使用現有的資訊最大化變分自動編碼器來學習現實中人與人交互的表示:通過重新配置策略將輸入影像映射到表示空間中,並通過設計解碼器從表示空間映射到單詞序列。



3

更少的交互,更高的識別準確率
在社會化 AI 的框架中,智慧體同時有兩個目標:一個發起社交互動,讓人們根據資訊數據作出回應;另一個是通過收集有用的數據來改進其基礎模型。這兩個目標也成了智慧體的評估指標。
首先,為了評估該智慧體獲得回應的能力,我們需要測量對它所提問題的資訊回應率(Informative Response Rate),也就是它收到問題答案(即獲得有用的交互)的交互百分比。較高的資訊回應率意味著對智慧體對隱性社會規範有更好的理解,而較低的資訊回應率則意味著人們不給予回應,這會減慢甚至停止智慧體的學習進程。
其次,為了評估智慧體識別新的視覺概念的能力,研究人員使用由 Amazon Mechanical Turk 的注釋器收集的 50104 個社交媒體影像、問題和答案,構成測試集,來評估視覺識別模型的準確率。
此外,為了對照和比較使用社會化 AI 框架所涉及的社會化智慧體與其他智慧體的區別,作者還部署了一個僅使用交互獎勵的人類偏好智慧體,一個僅使用知識獎勵的主動學習智慧體,以及一個基準線智慧體。
這個基準線智慧體不使用預訓練的交互表示作為動作空間,它允許微調解碼器的參數,使用整個組合辭彙空間作為動作空間。而且,它同時使用交互獎勵和知識獎勵,並額外添加了語言建模獎勵,以鼓勵它生成語法正確的語言。
所有這些智慧體都使用近端策略梯度(proximal policy gradients)進行訓練,而且都使用相同數量的數據進行初始化,並具有相同的策略和解碼器架構。
實驗進行了 8 個月,每個智慧體可以發起至少 20 萬次交互。當它們與人交互、並收集新的視覺知識時,資訊回應率和識別準確率的變化結果表明,社會化智慧體整體上優於其他智慧體。
資訊回應率更高
如下圖,在 236000 次互動中,社會化智慧體的資訊回應率從最初的 22% 提高到 33%,相對提高了 50%。相比之下,主動學習和基準線智慧體在每次迭代後獲得的回應較少,分別為 6% 和 12.3%。

圖註:資訊回應率與發起的交互次數的關係。社會化智慧體(綠色)和人類偏好的智慧體(紫色)都使用交互獎勵,在交互次數提高的同時資訊回應率也更高;其他智慧體的資訊回應率隨著交互次數的增加而下降,這是因為交互會阻礙它們的數據採集。
具體來看,基準線智慧體在儘力探索所有可能的語言交互組合空間時,不可避免地會產生不連貫的問題,這導致了回應率的下降,併產生一個惡性循環,從而無法識別有用的交互。回應率下降到 6% 以後,研究人員將其終止。
主動學習智慧體的弊端則在於它會提出更長、更難的問題,無法引起熱人們的興趣。例如,要回答「這些工具是為左撇子還是右撇子設計的?」這個問題,還得知道有關特定工具的知識以及是否可以用任何一隻手操作。
人類偏好智慧體的回應率最高,但它的提問又太簡單了。比如,它會問「這件襯衫是什麼顏色的?」
可以看到,當前實驗中智慧體的最高回應率是 33%,那麼這一數值還有多少上升空間呢?研究人員又進行了一項實驗,聘請標註人員來人工編輯問題,以增加智慧體獲得回應的可能性。最終,智慧體獲得了 37% 的回應率,這代表了人類從既定社會環境中獲得回應的平均能力。所以,智慧體還有 4% 的社交能力提升空間。
識別準確率更高
再來看這些智慧體在使用收集的數據來改進視覺模型方面表現如何。
與其他智慧體相比,社會化智慧體能使用更少的交互來提高識別準確率。它在 236000 次交互中實現了 39.44% 的模型性能(下圖 B),從中收到了 70000 條回應(下圖 C)。

圖註:視覺模型性能與智慧體發起的交互次數之間的關係。社會化智慧體和主動學習智慧體(橙色)都使用知識獎勵來收集有用數據,但主動學習智慧體本身缺少交互,要達到同樣性能,它需要更多交互。

圖註:視覺模型性能與來自人的回應數量的關係。社會化智慧體需要權衡知識與交互兩種獎勵,其準確率的提高與主動學習智慧體相當,而後者只能最大化知識獎勵。

相比之下,主動學習智慧體共發起了 274893 次交互,但僅收到 30000 條回應,並且性能開始飽和,達到 31.4%,回應率也下降到 12.3%。
這再次表明,在某些社會環境中,純粹的主動學習方法是不可行的。
而人類偏好智慧體每次交互雖然都會收到更多回應,但它收集的數據並沒有改善視覺模型。因為它傾向於收集一小部分問題的答案,因此它的底層視覺模型開始過擬合,最後只生成與時間相關或與顏色相關的輸出。
基準線智慧體也暴露出它的問題,即不連貫,收集的數據也沒有用。
獲取比傳統數據集更多的新資訊
最後,研究團隊對使用社會化智慧體收集的數據進行的訓練與使用現有數據集中的數據進行的訓練作了比較。
結果表明,前者的識別準確率遠高於後者,這說明社會化智慧體可以獲得傳統數據集中不存在的新資訊。

圖註:從社會互動中收集的數據與從傳統數據集中的數據進行訓練的準確率比較。使用來自現有數據集的相同數量的標籤進行訓練,僅將準確度從 11.24% 提高到 17.45%;而使用來自社會互動的數據進行訓練時,準確度從 18.13% 提高到 39.44%。
總結一下,這項研究的重要創新之處在於它提出了一個智慧體從與人的交互中學習的形式框架,並通過使用語言交互的視覺模型驗證了該框架的實用性。作者相信,這項工作將有助於更廣泛的互動式智慧體的研究。
更多內容,點擊下方關註:
掃碼添加 AI 科技評論 微訊號,投稿&進群:

雷峰網