在這項工作中,研究團隊將社會化 AI 形式化為一個強化學習的過程,即智慧體通過從社會互動中獲取的獎勵來學習識別有資訊量的問題。在一個視覺問答任務的測試中,與其他智慧體相比,社會化智慧體識別新視覺資訊的性能提高了 112%。
1 社會化 AI 的強化學習框架目前,在迭代擴展模型能力時,主動學習是最常用的一個框架。它的目標是優化一系列標註請求以獲取新的數據,並將新數據將用於以儘可能少的請求來提高模型的性能。主動學習已經被形式化為強化學習的過程,其中,真正的人類角色被移除,只假設存在一個能為所有請求提供標籤的「預言機」。儘管純粹的主動學習方法也可以通過社會環境中的互動來收集新數據,但從用戶角度看,他們並不原意充當「預言機」的角色來做重複提供標籤的勞動,這就打破了主動學習的基本假設。所以,我們必須探索智慧體真正與人交互的學習方法。要開發社會化的 AI,智慧體不僅要收集數據來學習新概念,還要學習如何與人互動來收集數據。而且,智慧體必須要在交互學習(interacting to learn)和學習交互(learning to interact)這兩個目標之間進行權衡。這非常具有挑戰性,因為智慧體要遍歷的可能交互空間是巨大的,只有一部分社會交互空間是有用的,並且資訊交互空間還會隨著智慧體的學習進程而不斷變化。在強化學習中,我們將可能的交互形式化為行動空間,將回饋形式化為獎勵,需要數億次交互才能獲得具有資訊量和親社會的交互的子空間,這讓很多研究人員望而卻步。所以,目前從與人類交互中學習的方法,通常只局限於人工標註或者小的工作空間(如只有幾十個動作的遊戲和模擬環境)。為此,研究團隊將社會化的 AI 形式化為一個迭代強化學習問題。
圖註:社會化 AI 的強化學習框架其框架描述如下:一個智慧體被放置在社會環境 E=(S,A,P,P0) 當中,它的目標是收集數據,以儘可能少的交互來優化模型的性能;S 是環境狀態,如對話智慧體的對話歷史,或機器人智慧體在三維世界中當前位置;A 是智慧體可以發起的與人交互的可能空間,如對話智慧體可以詢問的一組語句,或機器人智慧體可以執行的一組動作。;P:S × A → S 是過渡動力學(transition dynamics),如使用過渡函數(transition function)編碼人們對智慧體歷史行為的反應以及環境的變化。;最後,P0 是初始狀態分布的概率測度。總結而言,這樣一個迭代強化學習的過程包括三個重要的方面:改進底層模型、發現社會規範、更新交互策略。它們貫穿著智慧體的整個生命周期。其中,智慧體在人們可能會或可能不會做出資訊回應的社會環境中與人進行互動,從而改進底層模型。只有當人的回應包含對智慧體有用的新資訊時,回應才是有用的。因此,智慧體必須與環境中數十萬人的單次交互,從中選擇能夠引發對模型有用的新概念的社會互動。為了平衡智慧體的交互學習和學習交互兩個目標,我們可以引入知識獎勵(knowledge reward)來引導智慧體進行交互以獲得有用的新概念;同時採用交互獎勵(interaction reward)來引導智慧體進行符合環境中社會規範的交互。在使用新概念改進模型的基礎上,智慧體會更新其策略,開始學習如何就人們有興趣回應的新概念提出問題,來改進自身性能還比較差的部分。
2 從問答互動中改進視覺模型為了驗證社會化 AI 框架在電腦視覺中的實用性,作者在照片共享社交網路應用 Instagram 上部署了一個社會化智慧體,它向人們提出自然語言問題,並從人的回應中提取答案,收集視覺知識。這種使用自然語言來獲取視覺知識的方法,可以用來測試很多電腦視覺識別任務,如對象檢測(「影像中有什麼?」)、細粒度識別(「花瓶里是什麼花?」)、屬性分類(「這張桌子是用什麼材料做的?」)、知識庫推理(「這份食物是素食嗎?」)和常識推理(「這張照片是在冬天拍攝的嗎?」)等等。在這項工作中,研究團隊設計了一個電腦視覺問答模型,其輸入是一張影像和相應的自然語言問題,輸出是一個自然語言答案。智慧體提出的問題非常多樣,如下圖。