華為諾亞方舟實驗室多項強化學習研究成果獲IJCAI 2020錄用
- 2020 年 5 月 26 日
- AI
近期,華為諾亞方舟實驗室(決策推理實驗室-強化學習研究團隊)的3項研究成果被人工智慧領域頂級會議IJCAI(錄取率12.6%)接收(一作都為實習生,主要工作在華為實習期間完成),涵蓋團隊在高效強化學習研究方向近期的探索和研究成果,包括基於遷移學習的策略復用、對多模態示教數據和人類先驗知識的合理利用。本文簡要介紹了3項工作。
Efficient Deep Reinforcement Learning via Adaptive Policy Transfer
圖1:面向深度強化學習的策略遷移框架
深度強化學習解決很多複雜問題的能力已經有目共睹,然而,如何提升其學習效率是目前面臨的主要問題之一。現有的很多方法已驗證遷移學習可利用相關任務中獲得的先驗知識來加快強化學習任務的學習效率。然而,這些方法需要明確計算任務之間的相似度,或者只能選擇一個適合的源策略,並利用它提供針對目標任務的指導性探索。目前仍缺少如何不顯式的計算策略間相似性,自適應的利用源策略中的先驗知識的方法。本文提出了一種通用的策略遷移框架(PTF),利用上述思想實現高效的強化學習。PTF通過將多策略遷移過程建模為選項(option)學習,option判斷何時和哪種源策略最適合重用,何時終止該策略的重用。如圖1所示,PTF分為兩個子模組,智慧體(agent)模組和option模組。Agent模組負責與環境交互,並根據環境的經驗和option的指導進行策略更新。以PTF-A3C為例,agent模組的策略更新公式如下:
其中,agent模組對源策略的利用通過添加一個額外的損失函數,該損失函數計算agent策略與源策略之間的差異。根據option的終止函數,我們提出了一種自適應調整策略重用的機制,為損失函數設計了啟發式的權重係數,避免負遷移的出現。Option模組負責option的值網路和終止網路的學習,option的值函數更新參考DQN的更新方式,最小化損失函數:
Option模組通過計算以下梯度更新終止網路的參數:
圖2:各類方法在迷宮環境上的平均累積收益
Triple-GAIL: A Multi-Modal Imitation Learning Framework with Generative Adversarial Nets
圖3:Triple-GAIL框架
模仿學習是一種基於專家示教重建期望策略的方法,一直是AI領域的研究熱點。為了提升模仿學習的通用性和在實際工程中的應用,相關的研究方向吸引了大量學術和工業界人士,其中利用多模態模仿學習提升模仿學習效果是重要的方向之一。例如,應用於自動駕駛中的駕駛行為學習,真實駕駛員示教數據由於駕駛技能和行為習慣的多樣性呈現多種模態並服從不同的分布,如果直接利用行為克隆(Behavioral Cloning,BC)或逆向強化學習(Inverse Reinforcement Learning,IRL)容易導致模態坍塌問題(mode collapse problem),因缺乏發現和區分示教數據中的模態變化的能力。為了針對多模態示教數據進行有效的模仿,我們提出了一種基於生成對抗模仿學習(Generative Adversarial Imitation Learning,GAIL)的多模態模仿學習演算法框架(圖3),稱為Triple-GAIL,通過對模態選擇和行為模仿聯合學習並利用模態選擇器增量式生成數據促進模態區分優化模仿效果。Triple-GAIL在GAIL的基礎上增加了一個模態選擇器(Selector)用於區分多個模態,並和生成器(Generator)一起持續生成狀態-動作-模態數據序列,達到數據增廣的目的,而判別器(Discriminator)用於區分狀態-動作-模態數據序列是否來自於專家示教數據。與已有多模態模仿學習方法相比,Triple-GAIL既可以直接通過指定模態生成行為軌跡,也可以直接利用模態選擇器基於歷史數據判斷模態。
根據上述目標函數,我們從理論上證明了當且僅當 時,生成器和選擇器能夠同時收斂到各自的最優值,並在公開駕駛數據集(圖4)和實時策略遊戲中驗證了Triple-GAIL相比其他方法能夠更高效地學習到接近專家示教的多模態行為。文章鏈接://arxiv.org/abs/2005.10622。
圖4:各種方法基於NGSIM數據集的駕駛行為學習效果對比
KoGuN: Accelerating Deep Reinforcement Learning via Integrating Human Suboptimal Knowledge
圖5:KoGuN框架
人類在面對新任務時,能夠自然地利用從之前任務中獲得的先驗知識指導其之後的學習過程。這樣的先驗知識未必是與當前任務完全匹配的,很可能是次優的、模糊的,但是仍然能夠大大加速人類的學習過程。因此,在強化學習過程中利用人類提供的先驗知識直觀上能夠加速其學習過程。在序列決策問題中,利用人類知識的一系列重要工作是模仿學習,模仿學習需要利用專家的示教數據重建期望策略。而示教數據作為人類知識在某個任務下的具體體現,是low level的知識,我們期望能夠利用high level的知識,例如人類的常識知識,在未見過的任務中且沒有示教數據可供使用的情況下指導智慧體的學習。受此啟發,我們提出了一種新穎的知識引導策略網路(Knowledge Guide Policy Network,KoGuN),將人類的先驗知識結合到深度強化學習的學習過程中,其框架如圖5所示。我們引入了可學習的知識控制器(Knowledge Controller)編碼人類知識,其中包含若干條模糊規則。模糊規則適用於基於不確定的、不精確的知識進行推理,這與人類提供的具有非精確性的先驗知識相契合。我們使用的模糊規則的形式如下:
其推理過程可用下式表示:
同時,我們設計了知識精化模組(Refine Module)對次優先驗進行修正。我們提出的知識引導策略網路能夠與現有的基於策略的強化學習演算法結合,進行端到端的訓練。實驗結果顯示,我們的方法在離散和連續動作空間任務中均能夠提高智慧體的學習效率:
在收益訊號非常稀疏的情況下,我們的方法優勢更加明顯,如下:
文章鏈接://arxiv.org/abs/2002.07418