機器人學習大會CoRL 2020 最佳論文出爐!華為諾亞、上海交大獲最佳系統論文獎

  • 2020 年 11 月 27 日
  • AI

作者 | 陳大鑫
今日,CoRL 2020最佳論文獎、最佳系統論文獎、最佳論文展示獎等各項大獎出爐!
官網鏈接://www.robot-learning.org/program/awards
本次CoRL 2020最佳論文獎由自斯坦福大學和弗吉尼亞理工大學團隊獲得;
最佳系統論文獎由華為諾亞方舟、上海交大、倫敦大學學院團隊獲得;

最佳論文展示獎由南加州大學團隊獲得。

1

CoRL大會介紹

CoRL的全稱為Conference on Robot Learning(機器人學習大會),顧名思義,這是一個以機器人和機器學習為主題的學術會議。
而AI科技評論也注意到,近期的頂級機器人大會如IROS上,機器人與人工智慧兩個社區正在打破之前互不往來的格局,不僅越來越多機器人領域的學者在將機器學習應用到自己的研究中,一些人工智慧領域的知名學者如李飛飛團隊也已涉足機器人領域的研究,兩個社區之間的交流越來越密切,CoRL的誕生可謂是正逢其時。
在CoRL官網,組委會這樣描述舉辦CoRL的緣由:
CoRL是一個新的以機器人學和機器學習為主題的年度國際會議。第一次會議已於2017年11月13日至15日在加利福尼亞州山景城舉行,旨在匯聚約250名從事機器人學和機器學習領域的最優秀的研究者參會。
機器人技術,自主感知和控制領域正在經歷一場機器學習革命,現在正是時候提供一個將機器學習的基本進展與機器人應用和理論的實證研究相結合的場所。
我們的目標是使CoRL成為機器人(機器)學習研究的首選大會。
大會的組織者包括來自UC Berkrley、Google、Microsoft、CMU、MIT、ETH、Deepmind等知名院校和知名企業的研究者和從業者,同時CoRL大會的舉辦還得到了機器人國際機構「三巨頭」之一的國際機器人研究基金會(IFRR)和機器學習領域最好的期刊之一JMLR(Journal of Machine Learning Research)的支援。
機器人學習大會(CoRL)自2017年推出以來,已迅速成為機器人技術與機器學習交叉領域的全球頂級學術盛會之一:「針對機器人學習研究的大會,涵蓋了機器人技術、機器學習和控制等廣泛主題,包括理論和應用各方面。」
今年,CoRL 2020有475篇論文投稿,比2019年增加了20%。
最後,共有165篇論文被接收,接受率為34.7%,略高於去年的27.6%。
下圖為自2017年-2020年CoRL論文投稿數量增長趨勢圖:

下圖為自2017年-2020年CoRL論文接受率變化圖:


2

最佳論文獎

本次榮獲CoRL最佳論文獎的是來自斯坦福大學和弗吉尼亞理工大學合作的《Learning Latent Representations to Influence Multi-Agent Interaction》。

  • 論文鏈接://arxiv.org/pdf/2011.06619.pdf

  • 作者: Annie Xie, Dylan P. Losey, Ryan Tolsma, Chelsea Finn, Dorsa Sadigh.

獲獎理由:

本文提出了一個令人信服的解決方案,解決了包括競爭性物理機器人環境在內的多個領域的難題。

論文介紹:

智慧體與人類或機器人的無縫交互很困難,因為現實環境是動態變化的,並根據自智慧體的行為更新策略,而自智慧體必須預測這些變化以隨機應變。

受人類行為啟發,我們認識到機器人不需要顯式地為另一個智慧體要進行的每一個低級動作建模;相反,我們可以通過高級表徵來捕捉其他智慧體的潛在策略。

我們提出了一個基於強化學習的學習框架來學習一個智慧體策略的潛在表示,其中自智慧體識別其行為與另一個智慧體的未來策略之間的關係。

圖註:本文提出的學習和利用潛在意圖的方法框架
然後,自智慧體利用這些潛在的動力來影響另一個智慧體,有目的地引導他們走向共同適應的策略。
在多個模擬領域和一個真實的空中曲棍球遊戲中,本文的方法要優於其他方法,並學會了影響其他智慧體。
CoRL 2020最佳論文提名:

3

最佳系統論文獎

本次榮獲CoRL最佳系統論文獎的是來自華為諾亞方舟、上海交大周銘、倫敦大學學院團隊合作的一篇論文:《SMARTS: Scalable Multi-Agent Reinforcement Learning Training School for Autonomous Driving》.

  • 論文鏈接://arxiv.org/pdf/2010.09776.pdf

  • 開源程式碼://github.com/huawei-noah/SMARTS.

論文作者:
華為諾亞方舟實驗室:郝建業、汪軍、羅軍、劉武龍、張洪波、邵坤、楊耀東等人。
上海交通大學:周銘、繆佳宇、張偉楠等人。
獲獎理由:
本文提出了一個完善且經過深思熟慮的系統,對自動駕駛社區具有巨大的潛在影響。
論文介紹:
多智慧體交互是現實世界中自動駕駛的基礎,儘管人們已經進行了十多年的研究和發展,但如何在各種情況下與各種道路車輛(智慧體)進行有效交互的問題仍未解決。

Learning的方法可以為解決這個問題提供很多幫助,但是這一方法需要一個現實的多智慧體模擬器,該模擬器會產生多種多樣且有效的駕駛交互。

為了滿足這一需求,我們開發了一個專用的模擬平台:SMARTS (Scalable Multi-Agent RL Training School):可擴展多智慧體強化學習學校。

上圖是SMARTS 模型架構,其交互方案是使用特定領域語言(DSL)定義的。Social智慧體是從「 Social智慧體Zoo」中實例化而來。橙色車輛由學智慧體控制、深藍色車輛由 Social智慧體控制、淺藍色車輛由交通服務提供商控制。

原則上,所有提供程式和智慧體都可以在自己的進程中運行,也可以遠程運行。

SMARTS支援訓練、積累和使用道路用戶的各種行為模型,這些反過來又可以用於創建越來越現實和多樣化的交互,從而可以對多智慧體交互進行更深入、更廣泛的研究。

在本文中,我們描述了SMARTS的設計目標,解釋了SMARTS的基本體系架構和關鍵功能,並通過在交互場景中進行具體的多智慧體實驗來說明其用法。

最後,我們開源了SMARTS平台以及相關的基準測試任務和性能評估指標,以鼓勵和支援針對自動駕駛的多智慧體學習的研究。

最佳系統論文獎提名
4

最佳論文展示獎

本次榮獲CoRL 2020最佳論文展示獎的是來自南加州大學的一篇論文:

《Accelerating Reinforcement Learning with Learned Skill Priors》

  • 論文鏈接://arxiv.org/pdf/2010.11944.pdf

  • 項目主頁://clvrai.github.io/spirl/

獲獎理由:
本文展示了很棒的可視化和樣例來為相關問題提供了靈感、動機和解決方案。

論文介紹:
智慧體在學習新任務時會嚴重依賴先前的經驗,但是大多數現代強化學習(RL)方法都是從頭開始學習每個任務的。利用先驗知識的一種方法是將在先前任務中學習的技能轉移到新任務上。
但是,隨著先驗經驗的增加,可遷移技能的數量也隨之增加,這使得在下遊學習中探索全套可用技能具有挑戰性。
然而,從直覺上講,並非所有技能都應以同等的概率進行探索;例如,有關當前狀態的資訊可以提示智慧體希望探索哪些技能。
在這項工作中,我們建議通過學習先驗技能來實現這種直覺。我們提出了一個深度潛在變數( deep latent variable)模型:
該模型可以從離線智慧體經驗中共同學習技能的嵌入空間和技能。

然後,我們擴展常見的最大熵RL方法以使用先驗技能來指導下遊學習。我們在複雜的導航和機器人操縱任務上驗證了我們的方法SPiRL(Skill-Prior RL),並證明了學習先驗技能對於從豐富數據集中進行有效技能遷移至關重要。

最佳論文展示獎提名:

文末附上大會頒獎組織委員線上合影:

關於CoRL更多內容請查看大會官網:
//www.robot-learning.org/home
以及Youtube上的大會影片:
//www.youtube.com/watch?v=8afHfReCfPo


點擊閱讀原文,直達EMNLP小組!