如何讓人模仿獵豹走路?Stuart Russell提出基於最優傳輸的跨域模仿學習

  • 2021 年 11 月 19 日
  • AI
Stuart Russell等人使用Gromov-Wasserstein距離來對齊和比較智慧體不同空間之間的狀態,從而使人模仿獵豹走路成為可能。
編譯 | 杏花

編輯 | 青暮

跨域模仿學習研究的是如何利用一個智慧體的專家演示來訓練一個具有不同實施方式或形態的模仿智慧體。比較專家智慧體和模仿智慧體之間的軌跡和平穩分布是具有挑戰性的,因為它們生活在不同的系統中,甚至可能不具有相同的維數。

近日,來自加州大學伯克利分校人工智慧實驗室、倫敦大學學院和 Facebook AI 的研究人員在一篇論文 Cross-Domain Imitiation Learning via Optimal Transport 中提出了 Gromov-Wasserstein 模仿學習(GWIL),這是一種跨域模仿的方法,使用 Gromov-Wasserstein 距離來對齊和比較智慧體不同空間之間的狀態。

論文地址://arxiv.org/pdf/2110.03684v1.pdf

1

研究背景

強化學習(RL)已經在許多領域取得了令人驚艷的成果。然而,當前RL的有效性與訓練獎勵的品質密切相關。但是,對於許多現實世界的任務來說,設計密集且資訊豐富的獎勵需要大量的工程工作。為了減輕這種工作量,模仿學習(IL)建議直接從專家演示中學習。

但是,當前大多數的 IL 方法僅可以應用於最簡單的設置,在這種設置中,專家和智慧體共享相同的實施和轉換動態,它們生活在相同的狀態和動作空間。尤其是這些方法需要來自智慧體域的專家演示。

因此,論文的研究人員重新考慮了 IL 的效用,因為它似乎只是將問題從設計資訊性獎勵遷移到提供專家演示,而不是解決問題。然而,如果放寬當前 IL 方法的約束設置,那麼真正減輕工程量的自然模仿場景就會出現。事實上,不需要相同的動力學就能使智慧體模仿不同形態的人類和機器人,從而廣泛擴大 IL 的適用性,並減輕對域內專家演示的需求。

這種專家演示來自另一個域的寬鬆設置已成為更具現實假設意義的新興領域,被稱為跨域模仿學習。這些工作的一個共同策略是學習專家域和智慧體域之間的映射。為此,它們需要訪問智慧體任務,在這些任務中,專家和智慧體都在各自的域中發揮最優作用。在一定的結構假設下,該映射能夠在保持最優性的前提下,將專家域內的軌跡轉化為智慧體域內的軌跡。雖然這些方法確實放寬了 IL 的典型設置,但對代理任務的要求嚴重限制了跨域 IL 的適用性。例如,它排除了模仿以前從未見過的專家以及轉移到新機器人的可能性。

本篇論文中,研究人員放寬了跨域 IL 的假設,提出了一個不需要訪問智慧體任務的基準和方法。為此,研究人員脫離了先前工作的觀點,將跨域 IL 形式化為最優傳輸問題,提出了一種Gromov-Wasserstein模仿學習方法(GWIL),該方法使用 Gromov-Wasserstein 距離來求解基準。研究者們論文里正式描述了 GWIL 保持最優性的場景,揭示了其可能性和局限性。實驗表明,在非平凡連續控制設置中,GWIL通過一個單一的演示從另一個域學習最優行為,而不需要任何智慧體任務。


2

相關工作

模仿學習。IL 的早期研究方法是行為克隆,這相當於通過監督學習訓練分類器或回歸器來複制專家的演示。另一種關鍵方法是逆強化學習,它旨在學習一個獎勵函數,在該獎勵函數下觀察到的演示是最優的,然後可以通過 RL 來訓練智慧體。

為了跳過學習專家獎勵函數,Ho & Ermon 證明了 RL 是佔用度量匹配問題的對偶,並提出了一個對抗性目標,該目標的優化近似恢復專家的狀態-動作佔用度量,以及使用生成式對抗網路的實用演算法。雖然最近的一些工作旨在改進該演算法相對於由極大極小優化引起的訓練不穩定性,Primal Wasserstein模仿學習(PWIL)和 Sinkhorn 模仿學習(SIL)將 IL視為佔用措施之間的最優傳輸問題,以完全消除極大極小目標,並在樣本效率方面優於對抗性方法。

還有其他研究人員將模仿學習擴展到複雜的類人運動和非瑣碎設置中的遊戲行為。從 Wasserstein 到 Gromov-Wasserstein,該論文工作是對 Dadashi 等人以及 Papagiannis 和 Li 的延伸,從而超越了專家和模仿者在同一域中的限制,並進入了生活在不同空間中的智慧體之間的跨域設置。

跨域和形態的遷移學習。在 RL 中,不同域之間傳遞知識的工作通常會學習狀態空間和動作空間之間的映射。Ammar 等人使用無監督流形對齊,在具有相似局部幾何形狀但假定可以獲得手工製作特徵的狀態之間找到線性映射。最近在跨視點遷移學習和實施例不匹配方面的工作學習了不需要手工特性的狀態映射,但假設可以從兩個領域獲得成對和時間對齊的演示。

此外,Kim 等人和 Raychaudhuri 等人提出了從未配對和未對齊任務中學習狀態映射的方法。所有這些方法都需要智慧體任務,即來自兩個域的一組專家演示,這限制了這些方法在現實世界中的適用性。Stadie等人提出將對抗學習和域混淆結合起來,在不需要智慧體任務的情況下在智慧體域學習策略,但他們的方法僅適用於小視點不匹配的情況。Zakka等人採用目標驅動的觀點,試圖模擬任務進程,而不是匹配細粒度的結構細節,以便在物理機器人之間轉換。

相比之下,這篇論文的方法不依賴於學習智慧體之間的顯式跨域潛在空間,也不依賴於智慧體任務。GromovWasserstein 距離使研究人員能夠在沒有共享空間的情況下直接比較不同的空間。現有基準測試任務假設可以訪問來自兩個智慧體的一組演示,而這篇論文中的實驗僅假設可以訪問專家演示。

圖註:等距策略在平穩分布的狀態-動作空間內具有相同的成對距離。在歐幾里得空間中,等距變換保留了這些成對距離並包括旋轉、平移和反射。

圖註:Gromov-Wasserstein 距離使我們能夠比較具有不同動態和狀態-動作空間的兩個智慧體的平穩的狀態-動作分布。我們將其用作跨域模仿學習的偽獎勵。

圖註:給定專家域(a)中的單個專家軌跡,GWIL 在沒有任何外部獎勵的情況下恢復智慧體域(b)中的最優策略。綠點表示初始狀態位置,當智慧體達到紅色方塊表示的目標時,事件結束。


3

實驗結果

論文的研究人員提出了一個由 3 個任務組成的跨域 IL 方法的基準集,旨在回答以下問題:

1. 當智慧體域是專家域的剛性變換時,GWIL能否恢復最優行為?這是可以的,論文的作者們用迷宮證明了這一點。

2. 當智慧體的狀態和行動空間與專家不同時,GWIL能否恢復最優行為?這也是可以的,本篇論文中,作者們展示了倒立擺(cartpole)和鐘擺(pendulum)之間輕微不同的狀態-動作空間以及步行者(walker)和獵豹(cheetah)之間顯著不同的空間。

為了回答這兩個問題,研究人員使用了在 Mujoco 和 DeepMind 控制套件中實現的模擬連續控制任務。該學習策略的影片可在論文的項目網站上訪問。在所有設置中,作者在dE和dA的專家和智慧體空間中使用歐幾里得度量。

學習策略地址://arnaudfickinger.github.io/gwil/

圖註:給定鐘擺域(上圖)中的單個專家軌跡,GWIL 在沒有任何外部獎勵的情況下恢復智慧體域(倒立擺,下圖)中的最優行為。

圖註:給定獵豹域(上圖)中的單個專家軌跡,GWIL 恢復智慧體域(步行者)中最優策略等距類的兩個元素,向前移動是最優的(中間),向後移動是次優的(下圖)。有趣的是,由此產生的步行者的行為就像一隻獵豹。

雷峰網