第十二讲：基于模型的策略学习 | UC伯克利CS285深度强化学习

2020 年 12 月 2 日
AI

2019 UC 伯克利 CS285 深度强化学习

雷锋字幕组获得官方授权，汉化翻译 2019 加州大学伯克利分校 CS285 《深度强化学习》课程，今天更新第十二讲啦~

第十二讲：基于模型的策略学习新鲜出炉，这一讲主要讲的内容是变分推断。上节课我们学习了基于模型的非策略强化学习，我们关注的是如何训练出一个好的模型，还学到了不同版本的强化学习，比如model-based的强化学习0.5版、1.0版、1.5版等等。这些不同版本的算法，本质上都不一样，比如收集用于训练模型的数据时。但后续的决策过程是完全一致的。

这一讲最后一个部分，我们会讨论局部策略是如何合并到更常用的全局策略的，讲师用两种方法：向导策略搜索和策略蒸馏(见PPT)，让这个概念更加清晰。

PC端观看地址：
//www.yanxishe.com/overseasCourse/103

手机端观看地址：
（扫描小程序二维码后记得先点右上方加入小组）