第十二講：基於模型的策略學習 | UC伯克利CS285深度強化學習

2020 年 12 月 2 日
AI

2019 UC 伯克利 CS285 深度強化學習

雷鋒字幕組獲得官方授權，漢化翻譯 2019 加州大學伯克利分校 CS285 《深度強化學習》課程，今天更新第十二講啦~

第十二講：基於模型的策略學習新鮮出爐，這一講主要講的內容是變分推斷。上節課我們學習了基於模型的非策略強化學習，我們關注的是如何訓練出一個好的模型，還學到了不同版本的強化學習，比如model-based的強化學習0.5版、1.0版、1.5版等等。這些不同版本的演算法，本質上都不一樣，比如收集用於訓練模型的數據時。但後續的決策過程是完全一致的。

這一講最後一個部分，我們會討論局部策略是如何合併到更常用的全局策略的，講師用兩種方法：嚮導策略搜索和策略蒸餾(見PPT)，讓這個概念更加清晰。

PC端觀看地址：
//www.yanxishe.com/overseasCourse/103

手機端觀看地址：
（掃描小程式二維碼後記得先點右上方加入小組）