【深度強化學習】Curriculum-guided Hindsight Experience Replay讀後感
- 2020 年 4 月 2 日
- 筆記
導讀
看任何一個領域的文章,一定要看第一手資料。學習他們的思考方式,論述邏輯,得出一點自己的感悟。因此,通過閱讀paper,來提升自己對於這個領域的感性和理性認識。如少年時,玩war3電子競技一般。練習一個種族,找尋突破點。
文章原文:https://ai.tencent.com/ailab/zh/paper/detial?id=329
看到這篇文章的title是:Curriculum-guided Hindsight Experience Replay
。可能一下會犯暈,但是
要想到一點,萬事萬物是"簡易"的,是一步步由簡單到複雜的。"天下難事必作於易"。
-
Curriculum-guided
是某些前輩提出來了。paper中也有如下的引用:
curriculum learning [Bengio et al., 2009] and its applications [Khanet al., 2011, Basu and Christensen, 2013, Spitkovsky et al., 2009]
他是借鑒人類的思想方式。如果有一個精心設計的課程可以
顯著提高強化學習的質量和效率。 -
Hindsight Experience Replay
事後經驗復盤(個人翻譯,只為個人理解,不權威)。就像人類一樣,從失敗的經歷中得到教訓和經驗,從而去修正自己
的行為。這個概念也是有前輩已經提出來的,引用HER [Andrychowicz et al., 2017]
作者,是把這兩種思路,進行了融合。然後加入了一些參數因子goal-proximity
和diversity-based curiosity
,這個可以說是作者思考的核心要點。採取像人類一般的思考策略(human-like learning strategy),對一件事物,你前期對於它的興趣越大,那麼你接近目標的可能性概率也就越高。通過這些思考,作者提出了Curriculum-guided HER (CHER)
。
以上是個人分析,但我覺得事物的發展,是通過思考而來的。如果我們也可以站在"巨人的肩膀之上",把A和B的思路合為一體,再加一點點C因素。構成自己的D理論。我們也可能寫出頂會的paper。
目錄
繼續分析,paper的目錄結構:
- Abstract
- Introduction
- Related Work
- Methodology
- Experiments
- Conclusion
Acknowledgements
References
可以看到,一篇paper的目錄結構還是很簡單易懂的。介紹一些前人的工作和算法,他們有哪些事情是可以值得借鑒的;他們有哪些是不足的;我(這裡不是指我,而是作者)可以做哪些工作取彌補他們。然後我提出來的算法,在某個領域的應用比前輩們有哪些優勢。通過基準測試的數據證明我的有效性。最後,得出一定的結論。
全文可以看出,作者任何一句話都不是順便說的,沒有那麼多主觀論斷,都是有客觀的引用。循序漸進,最終提出自己的思路和想法。
因此,我(這裡指我)可以學到的是什麼?他的邏輯思維,思考邏輯和運用的一些方法。如果我要去寫的話,也得找出這些前輩們的算法中的優勢和不足在哪裡。
正文
我不是翻譯的,而是,喜歡個人分析。轉為自己的思路。如果想看原文請點擊最上方。
Abstract【摘要】
提出現象:在off-policy的深入強化學習框架之下,很難在稀疏獎勵(sparse matrix)之下獲得有效和成功的經驗。
那怎麼辦呢?
前人提出來了HER ,能解決一部分。但是無法把所有的失敗案例做有效的復盤和統一整理。
這篇paper,提出的解決思路:
1)利用好奇心多樣性驅動,來自適應性的選擇這些失敗的經驗進行復盤。
2)選擇想人類一般的思考策略,在前期階段強制投入過多的好奇心,這樣後期階段達到goal-proximity
的可能性就越大。
而這個算法作者取名為:CHER
,並在具有挑戰性的機械人環境中證明它這種算法有一定的提升性。
什麼是
off-policy
?on-policy:相當於,古時候的皇帝,想了解百姓生活,要眼見為實。所以微服私訪,自己去調查民情。而off-policy:就是皇帝自己待在宮中,派百官去了解百姓的民情,然後通過百官的論述做決策。這裡就有百官是否可靠的問題了,和RL算法中提到的agent
有異曲同工之妙。
Introduction【介紹】
- Deep reinforcement Learning(RL)是一個有效的框架,可以解決很多複雜的控制問題。在模擬(simulated)領域中,它可以驅動代理(這裡可以比喻為皇帝的百官)去執行各種各樣的有挑戰性的任務。引用來自:[Mnih et al., 2015, Lillicrap et al., 2015, Duan et al., 2016].(其中括弧中的話,是我說的。主要是為了讓人們理解)
- 為了訓練可靠的代理(判斷百官是否忠誠),就要設立獎懲制度(design a reward)。引用來自: [Ng et al., 1999].通過這些代理密集型的反饋(百官們積極反映社會問題),有效指導了算法的決策(皇帝做決策的時候,更符合民情)。因此,在特定環境下特定場景內效果還是不錯滴。
————————先寫到這裡,九層之台始於壘土,慢慢來,後面更新———————————-