类似 深度学习自动特征 的 强化学习自动辅助任务学表征
- 2019 年 10 月 4 日
- 笔记
强化学习的自动任务:表示学习是和适应环境的任务相关的;这篇论文给出了任务相关的表示学习的理论证明。
论文核心观点如下:
Our work opens up the possibility of automatically generating auxiliary tasks in deep reinforcement learning, analogous to how deep learning itself enabled a move away from hand-crafted features.
通过任务可以学到很好的表示。




理论太难,大家需要可以阅读论文:https://arxiv.org/abs/1901.11530
A Geometric Perspective on Optimal Representations for Reinforcement Learning 作者阵容豪华。
有本书举了一个人类学的认知例子:
亚马逊森林有个民族,他们的视觉没有深度,他们生活在茂密树林里面,没有草原上看远程的山的场景,所以书中提到一个场景是,作者带着部落人走出森林指出远程草原的一头牛,说我们要尽快走到那里,部落人说,这个小东西伸手就可以够到啊,由于对草原的深度感知不适应,部落人很想尽快回到森林。
还有一个例子是一位先天眼部疾病的人手术后恢复视觉,在3楼窗户想伸手拿楼下的汽车,因为从未适应过这个世界的视觉没有深度及距离大小的概念。
视觉的深度这个功能是根据环境适应而来。也就某些功能是跟环境是否需要这个功能,是否有相关的任务?是有任务驱动的表示学习;就是这篇论文的思想:表示学习和任务相关,足够多的任务可以学到很好的表示,缺失了某些任务会影响到表示学习,比如上面人类深度视觉的例子。
有了理论保证,如何运用呢?
vae学习表示非常高效,非常好,但是vae的重建某些时候是不必须的,那么DIM不重建学习表示是一种可以选择的方法,及cpc(info NCE);
表示学习最终是服务于任务的,所以任务驱动的表示学习会和任务更贴近,SR解耦了表示值函数 然后和任务驱动的表示学习如何整合呢?laplacian的时间抽象表示又如何整合提升表示学习?