首屆AAAI/ACM SIGAI博士論文獎公布,姚班學霸吳佳俊獲獎

  • 2020 年 11 月 9 日
  • AI

者 | 青暮
11月6日,AAAI和ACM SIGAI聯合發布了首個博士學位論文獎。麻省理工學院博士吳佳俊獲得了2019年AAAI / ACM SIGAI博士論文獎。另外還有兩位博士獲得了runners-Up獎項,分別是畢業於喬治亞理工學院的Aishwarya Agrawal和畢業於愛丁堡大學的董力。
AAAI / ACM SIGAI博士學位論文獎由AAAI和ACM SIGAI聯合設立,以表彰和鼓勵人工智慧領域的博士生的出色研究和論文,提名者必須是ACM SIGAI成員和/或AAAI成員。該獎項將每年在AAAI上頒發,獲獎者將被邀請在大會上發表演講。

1

一篇論文,三項榮譽

吳佳俊的獲獎論文是「Learning to See the Physical World」,此前,該論文還獲得 2019 ACM 博士論文榮譽提名獎。
今年7月,一年一度的 ACM 博士論文獎發布,畢業於特拉維夫大學的 Dor Minzer 獲得該獎項。吳佳俊和瑞士洛桑聯邦理工學院(EPFL)博士 Jakub Tarnawski 獲得榮譽提名獎。
相關鏈接://awards.acm.org/about/2019-doctoral-dissertation
吳佳俊獲獎論文:Learning to See the Physical World
論文地址://jiajunwu.com/papers/dissertation.pdf
論文摘要:
人類的智慧超越是模式識別的,我們可以從一張影像中解釋所看到的內容,以3D形式重建場景,預測將要發生的事情並相應地計划行動。
儘管在過去十年中人工智慧取得了驚人的發展,但與人類智慧相比,人工智慧(尤其是深度學習)在某些方面仍然不足:它們通常只能解決特定問題,需要大量的訓練數據,並且在泛化至新任務或新環境時很容易失敗。
在這篇論文中,我們研究了物理場景理解的問題:構建通用的、數據高效的、可通用的機器,學習如何觀察、推理和與物理世界交互。
其核心思想是以逼近模擬引擎的形式,利用真實世界背後的通用因果結構,包括來自電腦圖形學、物理學和語言的知識,並將其與深度學習相集成。在這裡,學習起著多方面的作用:模型可以學習反轉模擬引擎以進行有效的推理;它們還可以學習逼近或增強模擬引擎,以進行更強大的前向模擬。
本文分為三個部分,分別研究了這種混合模型在感知、動力學建模和認知推理中的應用。
在第一部分中,我們將學習與圖形引擎結合使用,以建立對象中心的場景表示形式,以實現對象的形狀、姿態和紋理。
在第二部分中,除了圖形引擎之外,我們還將學習與物理引擎配對以同時推斷物理對象屬性。我們還將探索學習逼近模擬引擎,以提高靈活性和表達能力。
在第三部分中,我們通過循環程式執行引擎來利用和擴展在第一部分和第二部分中引入的模型,以進行概念發現和認知推理。增強的模型可以發現對象和場景中的程式式結構,然後將其用於下游任務,例如視覺問答和場景處理。
值得一提的是,這篇論文還獲得了麻省理工學院George M. Sprowls人工智慧和決策博士學位論文獎。

姚班學霸

吳佳俊本科畢業於清華姚班,然後在MIT相繼獲得碩士和博士學位,現在是斯坦福大學電腦科學系的助理教授,並且隸屬於斯坦福視覺與學習實驗室(SVL)和斯坦福AI實驗室(SAIL)。

       

     
吳佳俊個人主頁://jiajunwu.com/
他的博士生導師是麻省理工學院認知科學與計算教授Josh Tenenbaum,Josh Tenenbaum以對數學心理學和貝葉斯認知科學的貢獻而聞名。
加入斯坦福大學之前,吳佳俊還曾當過Google Research的訪問學者。
他的研究興趣包括機器感知、推理及其與物理世界的相互作用,認為AI研究應該從人類認知中汲取靈感。他目前已經有多篇論文被 CVPR、ICLR、ICML、NeurIPS 等AI高峰會接收。據 Google Scholar 數據顯示,被引用數超過 5000。

       
       
他目前已經發表81篇論文,還曾被列入 ICLR 2019 最高產論文作者之一,其學術能力可謂既優質又高產。
吳佳俊是清華叉院2010級本科生,後來入選姚班。他在本科期間曾連續三年學分績全年級第一,獲得過清華特獎,以及蔣南翔獎學金和姚期智獎學金,是學霸無疑了。

2

runners-Up獲獎論文

兩篇 runners-Up 博士論文獎由畢業於喬治亞理工學院的 Aishwarya Agrawal 和畢業於愛丁堡大學的董力獲得。
Aishwarya Agrawal 獲獎論文:Visual Question Answering and Beyond
論文地址://smartech.gatech.edu/handle/1853/62277
論文摘要:
在本文中,我提出並研究了一種多模態人工智慧(AI)任務,即視覺問答(VQA)。給定影像和關於影像的自然語言問題(例如,「這是一家什麼樣的商店?」 ,機器的任務是自動產生準確的自然語言答案(「麵包店」)。
VQA的應用包括:幫助視力障礙的用戶了解周圍環境,幫助分析人員檢查大量監視數據,通過互動式演示進行教學,讓人類與AI助手進行交互,以及使可視化社交媒體內容更易於訪問。
具體來說,我研究以下內容:
1)如何創建大規模數據集,並為自由形式和開放式VQA定義評估指標;
2)如何開發表徵VQA模型行為的技術;
3)如何通過提出建議來構建VQA模型,使得模型較少受訓練數據中的語言偏見驅動,而在視覺上更具基礎。建議包括一種新的評估協議、一種新的模型架構、一種新穎的目標函數。
我過去的大部分工作都是致力於建立可以「看到」和「交談」的智慧體。但是,對於許多實際應用(例如,物理智慧體在房屋中導航以執行自然語言命令),我們需要的智慧體不僅需要「看到」和「交談」,還需要採取行動。在第6章中,我介紹了將視覺和語言智慧體泛化為能夠採取行動的未來方向。

       
       
Aishwarya Agrawal個人主頁://www.cc.gatech.edu/~aagrawal307/
Aishwarya Agrawal 現在是 DeepMind的一名研究科學家,研究興趣是電腦視覺、深度學習和自然語言處理的交叉領域。
「Visual Question Answering and Beyond」還曾獲喬治亞理工學院 2020 Sigma Xi 最佳博士論文獎和喬治亞理工學院 2020 電腦學院論文獎。
董力獲獎論文:Learning Natural Language Interfaces with Neural Models 
論文地址://era.ed.ac.uk/handle/1842/35587
論文摘要:
語言是人類交流的主要和最自然的手段。如果我們可以使用人類語言與機器對話,與各種設備和服務(例如,數字助理和智慧設備)進行交互將變得更加方便。
但是,在大多數情況下,電腦只能解釋和執行形式語言。在本文中,我們專註於使用神經模型來構建自然語言介面,從而學習將自然措辭的表達映射到機器可解釋的表示上。
由於(1)自然語言和形式語言之間的結構不匹配,(2)輸出表示需要正確的格式,(3)缺乏不確定性資訊和可解釋性,以及(4)語言變化的模型覆蓋面,因此該任務具有挑戰性。
在本文中,我們開發了幾種靈活的神經架構來應對這些挑戰。我們針對自然語言介面提出了一種基於注意力增強的編碼器-解碼器神經網路的模型。
除了序列建模之外,我們還提出了一種樹解碼器,以利用含義表示的組成性質和格式正確性,以自頂向下的方式遞歸地生成層次結構。
為了對不同粒度級別的含義進行建模,我們提出了一種結構感知的神經架構,該結構按照從粗到精的過程解碼語義表示。
我們所提出的神經模型仍然難以解釋,在大多數情況下是黑盒。我們探索了估計和解釋模型對其預測的信心的方法,認為該模型可以為用戶提供有關不確定輸出的即時且有意義的回饋。
我們估計了表明模型預測是否正確的置信度得分。此外,我們確定輸入的哪些部分會導致不確定的預測,從而允許用戶解釋其模型。
模型覆蓋是導致自然語言介面不確定的主要原因之一。因此,我們開發了一個通用框架來處理自然語言表達相同資訊需求的多種不同方式。
我們利用外部資源為輸入生成適當的釋義,然後將其提供給神經釋義評分模型,該模型將較高的權重分配給最有可能產生正確答案的語言表達。使用目標任務提供的監督訊號對模型組件進行端到端訓練。
實驗結果表明,我們所提出的神經模型可以輕鬆地跨任務遷移。此外,可以通過考慮輸出格式正確性、置信度建模和改善模型覆蓋範圍來增強自然語言介面的魯棒性。
董力個人主頁://dong.li/
董力本科畢業於北京航空航天大學電腦學院,博士畢業於英國愛丁堡大學,目前是微軟亞洲研究院自然語言計算組高級研究員,研究興趣是結構化數據與文本之間的轉換。他曾獲 2015 年微軟亞研獎學金和 ACL 2018 最佳論文榮譽提名獎。
參考鏈接:
//sigai.acm.org/awards/doctoral_dissertation_award.html


點擊閱讀原文,直達直播頁面~