類似 深度學習自動特徵 的 強化學習自動輔助任務學表徵
- 2019 年 10 月 4 日
- 筆記
強化學習的自動任務:表示學習是和適應環境的任務相關的;這篇論文給出了任務相關的表示學習的理論證明。
論文核心觀點如下:
Our work opens up the possibility of automatically generating auxiliary tasks in deep reinforcement learning, analogous to how deep learning itself enabled a move away from hand-crafted features.
通過任務可以學到很好的表示。




理論太難,大家需要可以閱讀論文:https://arxiv.org/abs/1901.11530
A Geometric Perspective on Optimal Representations for Reinforcement Learning 作者陣容豪華。
有本書舉了一個人類學的認知例子:
亞馬遜森林有個民族,他們的視覺沒有深度,他們生活在茂密樹林裡面,沒有草原上看遠程的山的場景,所以書中提到一個場景是,作者帶著部落人走出森林指出遠程草原的一頭牛,說我們要儘快走到那裡,部落人說,這個小東西伸手就可以夠到啊,由於對草原的深度感知不適應,部落人很想儘快回到森林。
還有一個例子是一位先天眼部疾病的人手術後恢復視覺,在3樓窗戶想伸手拿樓下的汽車,因為從未適應過這個世界的視覺沒有深度及距離大小的概念。
視覺的深度這個功能是根據環境適應而來。也就某些功能是跟環境是否需要這個功能,是否有相關的任務?是有任務驅動的表示學習;就是這篇論文的思想:表示學習和任務相關,足夠多的任務可以學到很好的表示,缺失了某些任務會影響到表示學習,比如上面人類深度視覺的例子。
有了理論保證,如何運用呢?
vae學習表示非常高效,非常好,但是vae的重建某些時候是不必須的,那麼DIM不重建學習表示是一種可以選擇的方法,及cpc(info NCE);
表示學習最終是服務於任務的,所以任務驅動的表示學習會和任務更貼近,SR解耦了表示值函數 然後和任務驅動的表示學習如何整合呢?laplacian的時間抽象表示又如何整合提升表示學習?
