深度強化學習中稀疏獎勵問題Sparse Reward

2021 年 8 月 3 日
筆記
deeplearning, 強化學習

Sparse Reward

推薦資料

強化學習算法在被引入深度神經網絡後，對大量樣本的需求更加明顯。如果智能體在與環境的交互過程中沒有獲得獎勵，那麼該樣本在基於值函數和基於策略梯度的損失中的貢獻會很小。

針對解決稀疏獎勵問題的研究主要包括：¹

Reward Shaping：獎勵設計與學習
經驗回放機制
探索與利用
多目標學習和輔助任務

1. Reward Shaping

人為設計的「密集」獎勵。

例如，在機械臂「開門」的任務中，原始的稀疏獎勵設定為：若機械臂把門打開，則給予「＋１」獎勵，其餘情況下均給予「０」獎勵。然而，由於任務的複雜性，機械臂從隨機策略開始，很難通過自身探索獲得獎勵。為了簡化訓練過程，可以使用人為設計的獎勵：１)在機械臂未碰到門把手時，將機械臂與門把手距離的倒數作為獎勵；２)當機械臂接觸門把手時，給予「＋0.１」獎勵；３)當機械臂轉動門把手時，給予「＋０.５」獎勵；４)當機械臂完成開門時，給予「＋１」獎勵。這樣，通過人為設計的密集獎勵，可以引導機械臂完成開門的操作，簡化訓練過程。

2. 逆向強化學習

針對人為設計獎勵中存在的問題，Ng等²提出了從最優交互序列中學習獎勵函數的思路，此類方法稱為」逆強化學習」。

3. 探索與利用（好奇法）：

在序列決策中，智能體可能需要犧牲當前利益來選擇非最優動作，期望能夠獲得更大的長期回報。

在 DRL領域中使用的探索與利用方法主要包括兩類：基於計數的方法和基於內在激勵的方法。其目的是構造虛擬獎勵，用於和真實獎勵函數共同學習。由於真實的獎勵是稀疏的，使用虛擬獎勵可以加快學習的進程。

ICM³（逆環境模型）—— 改進的基於內在激勵的方法

Network 1：預測的狀態S與實際狀態S差別越大，回報r越大，鼓勵冒險
Network 2：輸入 \(S_t\) 和 \(S_{t+1}\) ，預測動作 \(a_t\) ，與真實動作差別大時，表示無關緊要的狀態。
ICM 通過學習可以在特徵空間中去除與預測動作無關的狀態特徵，在特徵空間中構建環境模型可以去除環境噪聲。

4. 多目標學習——層次強化學習

智能體可以從已經到達的位置來獲得獎勵。在訓練中使用虛擬目標替代原始目標，使智能體即使在訓練初期也能很快獲得獎勵，極大地加速了學習過程。
將一個單一目標，拆解為多個階段的多層級的目標。

5. 輔助任務

在稀疏獎勵情況下，當原始任務難以完成時，往往可以通過設置輔助任務的方法加速學習和訓練。

Curriculum Learning，「課程式」強化學習：

當完成原始任務較為困難時，獎勵的獲取是困難的。此時，智能體可以先從簡單的、相關的任務開始學習，然後不斷增加任務的難度，逐步學習更加複雜的任務。

直接添加輔助任務：第二類方法是直接在原任務的基礎上添加並行的輔助任務，原任務和輔助任務共同學習。

參考文獻

[1] 楊惟軼,白辰甲,蔡超,趙英男,劉鵬.深度強化學習中稀疏獎勵問題研究綜述[J].計算機科學,2020,47(03):182-191.

Tags: deeplearning 強化學習

深度強化學習中稀疏獎勵問題Sparse Reward

Sparse Reward

推薦資料

1. Reward Shaping

2. 逆向強化學習

3. 探索與利用（好奇法）：

ICM³（逆環境模型）—— 改進的基於內在激勵的方法

4. 多目標學習——層次強化學習

5. 輔助任務

參考文獻

VirMach 便宜 VPS

QNews

深度強化學習中稀疏獎勵問題Sparse Reward

Sparse Reward

推薦資料

1. Reward Shaping

2. 逆向強化學習

3. 探索與利用（好奇法）：

ICM3（逆環境模型）—— 改進的基於內在激勵的方法

4. 多目標學習——層次強化學習

5. 輔助任務

參考文獻

分享此文：

Related Posts

Github標星10.5K！Chrome最好用的插件都在這裡了

ABAP Development Tool IDE里編寫的CDS view源代碼是如何傳遞到ABAP後台並解析的

sql注入之堆疊注入及waf繞過注入

【硬核】MMU是如何完成地址翻譯的

VirMach 便宜 VPS

QNews

熱門文章

熱門搜尋

ICM³（逆環境模型）—— 改進的基於內在激勵的方法