第十二讲:基于模型的策略学习 | UC伯克利CS285深度强化学习
- 2020 年 12 月 2 日
- AI
雷锋字幕组获得官方授权,汉化翻译 2019 加州大学伯克利分校 CS285 《深度强化学习》课程,今天更新第十二讲啦~
第十二讲:基于模型的策略学习 新鲜出炉,这一讲主要讲的内容是变分推断。上节课我们学习了基于模型的非策略强化学习,我们关注的是如何训练出一个好的模型,还学到了不同版本的强化学习,比如model-based的强化学习0.5版、1.0版、1.5版等等。这些不同版本的算法,本质上都不一样,比如收集用于训练模型的数据时。但后续的决策过程是完全一致的。
这一讲最后一个部分,我们会讨论局部策略是如何合并到更常用的全局策略的,讲师用两种方法:向导策略搜索和策略蒸馏(见PPT),让这个概念更加清晰。
PC端观看地址:
//www.yanxishe.com/overseasCourse/103
手机端观看地址:
(扫描小程序二维码后记得先点右上方加入小组)
翻译 | 李东达、钱誉钦、詹好、乌木鸽
校对 | 唐里、Key
字幕 | 唐里
这门课程的译者持续招募中,
感兴趣的小伙伴可以添加字幕菌的企业微信报名翻译哦!
(微信直接扫码即可,无需下载企业微信)
与此同时,AI 研习社喊你加入课程学习小组,和上万名热爱学习的小伙伴们,一起研习海外经典课程。
扫描上方小程序二维码,加入285课程小组,截图发送给字幕君,PC端和手机端截图都可,我们将你拉入285课程讨论微信群
PPT:CS285 加州大学伯克利分校第一讲至第二十一讲(AI 研习社整理)
下载地址://www.yanxishe.com/resourceDetail/1118