基於模型的強化學習比無模型的強化學習更好？錯！

2019 年 11 月 27 日
筆記

作者 | Carles Gelada and Jacob Buckman

編輯 | DeepRL

來源 | 深度強化學習實驗室（ID:Deep-RL)

【導讀】許多研究人員認為，基於模型的強化學習（MBRL）比無模型的強化學習（MFRL）具有更高的樣本效率。但是，從根本上講，這種說法是錯誤的。更細微的分析表明，使用神經網路時，MBRL方法可能比MFRL方法具有更高的取樣效率，但僅適用於某些任務。此外，而基於模型的RL僅僅是開始。另一類演算法，即基於同態的強化學習（HBRL），可能具有在諸如視覺干擾等具有高水平無關資訊的任務上進一步提高樣本效率的潛力。在這篇文章中，我們為這些想法提供了直觀的證明。

Equivalence Between Model-based and Model-free RL

「基於模型的方法比沒有模型的方法更具樣本效率。」近年來，這種經常重複的格言在幾乎所有基於模型的RL論文（包括Jacob論文）中都引起關注。如此常識，沒有人甚至不介意在旁邊加上引文，陳述的真實性是不言而喻的。很明顯，但是這是錯誤的。實際上，在很多情況下，兩種方法的取樣效率是相同的。

在比較兩種方法在給定轉換數據集時學習的值函數時，可以看出MBRL和MFRL之間的等效性。無模型方法是通過TD學習直接學習此值函數。相反，基於模型的方法是通過學習轉換模型然後展開來隱式地學習此值函數。折扣獎勵的總和為我們帶來了價值。給定相同的轉換數據集，這兩種方法中的每一種都將計算出真實值函數的近似值。當數據豐富時，兩種方法都將給出接近完美的近似值。演算法的取樣效率是指隨著越來越多的數據可用，逼近誤差降低的速度。

這兩種演算法在表面上看起來非常不同，因此期望誤差以不同的速率減小。但是，正如Parr 2008中所證明的那樣，在表格和線性設置中，這兩種方法不僅具有相同的比率，而且實際上產生了完全相同的值函數！這兩種方法是等效的。基於模型的方法並沒有使它更有效地取樣的基礎。

但是，即使知道了這種等效性，許多研究人員仍然有很強的直覺，即學習環境模型會更好。我們同意！讓我們嘗試進一步探索這種直覺，以便我們更好地了解它可能存在或可能不存在的地方。

The Simpler, the Sample-efficient-er

首先，我們要強調一個基本原則，該原則是這篇文章中爭論的核心，對任何訓練過神經網路的人來說都是熟悉的。在幾乎所有任務上，訓練神經網路達到良好性能所需的數據量或多或少與任務的難度成正比，這是通過與「正確答案」相對應的函數的複雜性來衡量的。訓練神經網路以預測所有輸入的恆定輸出僅需要幾個數據點；在實現了MNIST的準確分類；ImageNET需要數百萬。

A Motivating Example: City Navigation

考慮在城市中導航的任務，我們將其視為RL問題。在每個情節的開始處，都會生成一個地圖，並取樣特工和目標的初始位置。狀態空間是城市網格的自上而下的像素表示。為了獲得獎勵，必須通過選擇向上，向下，向左或向右操作從起點到目標點。讓我們考慮使用無模型技術和基於模型的技術來解決此MDP的需要。

對於無模型方法，我們嘗試學習值函數：從狀態空間直接映射到每個動作的值的神經網路。但是，這將是相當困難的學習。這個城市就像迷宮一樣，添加（或刪除）一條小捷徑，甚至離特工或目標不遠，都會大大改變特工的預期回報。因此，兩個相似的狀態可能具有截然不同的值。換句話說，值函數是狀態的高度複雜函數。由於該值函數並不簡單，因此需要大量數據才能通過神經網路對其進行近似。

基於模型的方法更直觀地接近於人類如何理解任務。在第二種方法中，我們訓練了一個神經網路來近似環境的回報和轉變。一旦了解了近似模型，就可以通過計劃來提取最佳策略（即使用該模型從不同操作中推出期貨，並採取預期收益最高的操作）。從一般化的角度來看，在此任務上使用基於模型的方法的好處顯而易見。簡單的動態變化（即，除非存在隔離牆，否則將主體沿動作的方向移動）會為過渡和獎勵模型帶來簡單的學習目標。由於我們正在學習一個簡單的函數，因此不需要太多的數據即可獲得良好的性能，因此取樣效率更高。

So What Changed?

為什麼這個論點成立，而不是成為上述等同論的犧牲品？關鍵是神經網路。Parr（2008）描述的等效項僅存在於表格和線性設置中。當真值函數和真動力學都是狀態空間的線性函數時，很明顯，兩者都不比另一個更簡單！但是，當我們的狀態空間是高維的並且我們的函數類是神經網路時，我們選擇學習的函數的複雜性會對成功獲取多少樣本產生重大影響。樣本效率的任何收益或損失都與泛化行為密切相關。

此外，這種解釋使我們了解了當我們轉向基於模型的強化學習時，我們期望在樣本效率方面提高哪些任務。簡而言之，在具有簡單動態特性但複雜的最佳策略的任務中，對動態特性的了解比對最佳策略進行強行強制更為有效。但至關重要的是，請注意，並非所有任務都如此！考慮對城市導航示例的修改，該示例通過GPS導航方向擴大了觀察空間。這是最佳策略比動態過程更簡單的任務示例；因此，一項無模型學習的任務將更加高效。

可以很直觀地看出，某些MDP更易於解決基於模型或不基於模型的問題，但是要嚴格理解這一區別，還有很多工作要做。Dong等人已經開始將該概念形式化，證明存在許多MDP，其策略和Q功能比動態過程更複雜。希望將來的工作將繼續在這些思想的基礎上進行，最終畫出如何表徵差異的清晰畫面。

Modeling in a More Realistic Setting

但是基於模型的模型與沒有模型的模型只是一部分。上面的導航任務適合模型學習，因為它的動態過程簡單明了。但是在現實世界中，事情通常並不那麼乾淨。考慮相同迷宮任務的一種變體，但是渲染得更真實，就像輸入像素是由相機提供的一樣：

儘管任務從根本上沒有改變，但是在這種環境下學習動力學模型要困難得多。由於狀態空間由像素表示，因此對下一個狀態的預測要求我們預測螢幕上每個像素如何響應我們的動作而變化。我們需要逐個像素地預測煙霧如何從煙囪中漂浮出來，陰影如何在地面上流動，無論體育場中的足球隊是否得分。即使我們可以學習這樣的模型（對於有限容量的神經網路來說，這也不是一件容易的事），我們也需要大量的數據才能很好地概括。現實世界非常複雜，因此任何嘗試使用神經網路對現實世界進行建模的演算法都將遭受極其差的取樣效率的困擾。

Homomorphism-Based RL(同態)

增加視覺複雜性大大增加了問題難度的想法似乎並不能反映人類的經驗。視覺上在導航問題上添加樹木和汽車並沒有改變您對問題的看法，也沒有改變您提出解決方案的能力。即使不知道煙霧和陰影的精確運動，人類仍然可以使用任務模型。我們了解重要的事物，並且了解重要事物的動態。

換句話說，人類有能力直觀地將視覺上嘈雜的現實城市網格縮小為等效的簡化版本。更一般而言，對於幾乎所有任務，人們都可以將凌亂的高維現實世界狀態投影為乾淨的低維表示形式。至關重要的是，這些表示僅包含原始狀態的與任務相關的功能，並丟棄所有無用的複雜性。完全沒有任何噪音，冗餘等。在這些表示所定義的潛在空間中，動力學再次變得非常簡單，我們可以輕鬆，高效地進行計劃。

我們將此想法稱為基於同態的RL（HBRL）。這代表了我們可以設計強化學習演算法的第三個範式。「同態」這個名稱源於對所學表示空間的數學解釋，它是簡化的MDP，與環境MDP是同態的（等效形式）。在具有複雜的價值函數和狀態動態，但具有簡單的基礎任務動態的任務中，我們應該期望基於同態的RL將是最高效的樣本學習方法。

當然，正如我們在前面對MFRL與MBRL的討論中所看到的那樣，HBRL並不總是最好的解決方案。例如，如果我們嘗試解決一個非常簡單的環境（例如之前的簡化城市任務），則HBRL通常比MBRL需要更多的數據，因為該演算法將需要許多數據點，只是為了認識到最佳的潛在空間就是狀態空間本身。當然，即使在現實的城市環境中，GPS方向仍將導致無模型學習比任何其他方法更有效地進行取樣。

但是，當涉及到現實世界中的任務時，從直觀上看，它們中的絕大多數將類似於現實中的城市任務。現實世界是一個視覺複雜的地方，很少給出「分步說明」。因此，我們認為，基於潛在模型的RL的進步可能會大大加速現實環境中的樣本有效學習。

Homomorphism-Based RL vs. Latent-Space Modeling

如果您一直在關注深度強化學習的最新趨勢，那麼「學習等效但簡化的潛在空間模型」的想法可能對您來說似乎很熟悉。實際上，從表面上看，諸如World Models（Ha等人）和PlaNet（Hafner等人）的最新著作似乎與我們對基於同態的RL的上述定義相符。但是，有一個關鍵的區別。

HBRL背後的核心思想是，狀態的良好表示不需要包含與任務無關的資訊。如果我們強迫潛在空間對狀態空間的任意資訊進行編碼（例如，通過最大程度地減少重建損失），則在狀態空間複雜的環境中會遇到困難（與MBRL所遇到的困難基本相同）。前面提到的方法都包括狀態重建或下一狀態預測損失，因此它們的最佳特徵是使用潛變數而不是HBRL進行MBRL。

Previous Work on Homomorphic MDPs

在過去的幾十年中，有幾本著作探索了這些想法。MDP同態和狀態抽象都提出了良好的數學基礎，及考慮資訊與任務相關意味著什麼。這些研究方嚮導致了基於通過聚合學習狀態表示的表格RL演算法。

但是，此部落格的大多數讀者很可能從未聽說過這些論文。這是因為儘管演算法複雜得多，但這些方法從未顯示出比簡單方法有所改進。出現這種缺陷的原因：就像在表格設置中基於模型的學習和無模型的強化學習一樣，這些方法也是如此。由於所有技術在根本上都是等效的，因此沒有理由引入狀態抽象的額外複雜性。

但是再一次，當涉及到神經網路時，情況就不同了。由於有效的概括成為提高取樣效率的關鍵，因此在許多環境中學習狀態抽象要比替代方法的取樣效率高得多。具體地說，對於狀態空間中具有大量與任務無關的資訊的環境，例如上一節中介紹的實際城市導航任務，就是這種情況。

不幸的是，由於許多這些技術都與表格環境緊密相關，因此在使它們適應現代深度強化學習環境方面幾乎沒有取得任何進展。我們認為這是深度強化學習中最有前途的研究途徑之一。在我們最近的ICML論文中，我們為與神經網路兼容的一類同態RL演算法奠定了理論基礎。我們提出了理解重要問題的問題，即學習針對MDP狀態的神經嵌入函數的問題。然後，了解重要的動力學對應於學習由嵌入函數定義的潛在空間中動力學的神經模型。Carles決定將此框架稱為「 DeepMDP」，但回想起來，這個名稱很糟糕，我們希望我們將其命名為其他名稱。

Latent Planning with DeepMDPs

DeepMDP由一組三個函數組成，每個函數都由一個神經網路表示：一個嵌入函數

（從狀態映射到潛在表示），一個獎勵函數

（從映射到潛在表示） -狀態和要獎勵的動作，以及從潛在狀態和動作映射到下一個潛在狀態的轉換函數

（這後兩個有時統稱為「潛在空間模型」。）

至關重要的是，通過最小化兩個目標函數來訓練DeepMDP，一個目標函數用於獎勵

直觀地，在給定狀態和動作的情況下，這些函數測量實際獎勵/轉換函數的結果與潛在獎勵/轉換函數的結果之間的距離。這些目標如下所示：

What Guarantees Can We Obtain?

最小化這些目標可以獲得兩個有價值的屬性：

嵌入功能將僅丟棄狀態的與任務無關的資訊。
潛在空間模型和實際MDP的嵌入狀態遵循完全相同的動力學，這意味著過渡和收益始終完美地吻合。

從直觀上清楚地知道，最小化DeepMDP目標如何滿足第二個屬性。本質上，我們強制嵌入和轉換函數，並且狀態和潛在狀態具有相同的收益。換句話說，我們正在實施環境的MDP和DeepMDP之間的同構。

但是，必須滿足屬性（1）的情況要少得多。為了證明這一點，我們藉助雙模擬指標（我們前面提到的RL表示學習的數學基礎之一）來分析經過訓練的DeepMDP的屬性。雙模擬度量標準度量任何兩個狀態之間的「行為相似性」概念。在這些度量標準下，如果兩個州擁有立即和未來獎勵的相似分布，則它們之間的距離很小。僅兩個視覺狀態有所不同而不會影響遊戲動力學的狀態（例如下面的ASTEROIDS圖中不同的小行星顏色），任何兩個狀態的模擬距離均為0。因此，我們的第一個目標可以理解為學習嵌入尊重雙模擬的函數：換句話說，一個嵌入函數僅在狀態之間的雙模擬距離為0時才將狀態摺疊在一起。令人驚訝的是，我們可以在數學上保證通過最小化DeepMDP來學習的任何嵌入函數都是這種情況目標。

Global vs. Local Losses

注意，以上目標是功能；他們給我們每個狀態和每個動作帶來損失。MDP包含許多狀態和動作，並且為了應用優化演算法，我們需要將這些每個狀態動作損耗編譯為單個標量損耗值。在本文中，我們首先研究了在整個國家行動空間中所有損失的極小值的最小化，我們稱其為全球DeepMDP損失。當使全局DeepMDP損失最小化時，必須做兩件事。

保證學習的嵌入函數遵守雙模擬。
保證DeepMDP是真實環境的準確模型。

不幸的是，實際上不可能將最小化。使用狀態和動作的期望值對神經網路進行訓練，該期望值是從分布中取樣的。因此，我們還研究了由局部DeepMDP損失最小化提供的保證，這些保證是通過考慮狀態作用分布下損失函數的期望來計算的。（之所以如此命名，是因為它們相對於所述分布「局部」地測量了損失。）就像在全局情況下一樣，我們證明了當本地DeepMDP損失最小時，DeepMDP被保證是真實環境的準確模型。。

不幸的是，本地損失與雙模擬指標之間沒有聯繫。這是因為經典的雙模擬本質上取決於整個狀態操作空間。我們推測存在雙模擬量度的局部變體，這將使我們能夠充分了解DeepMDP（正在進行的工作）所學習的表示形式。

Empirical Results

由於DeepMDP與神經網路完全兼容，因此自然而然地需要在標準的深度RL基準測試中對其進行測試。到目前為止，我們僅探討了DeepMDP的表示學習方面。為此，我們對標準Atari 2600代理程式進行了簡單的修改：我們選擇了Q函數神經網路的中間層作為DeepMDP潛在空間，並添加了獎勵和過渡模型，這些模型是使用局部DeepMDP損失進行訓練的。在大多數Atari 2600遊戲中都可以看到性能的大幅提高，這歸因於尊重雙模擬指標的表示形式（請參見本文的定理3）。

但是，要充分展示這種方法的潛力，仍需通過實驗證明，使用模型進行規劃可以以示例高效的方式成功解決具有挑戰性的視覺複雜環境。這是當前工作的主題；我們有一些令人鼓舞的初步結果，希望不久後發布。

原文鏈接：

https://jacobbuckman.com/2019-10-25-three-paradigms-of-reinforcement-learning/

（*本文為AI科技大本營轉載文章，轉載請聯繫作者）