第十二講:基於模型的策略學習 | UC伯克利CS285深度強化學習
- 2020 年 12 月 2 日
- AI
雷鋒字幕組獲得官方授權,漢化翻譯 2019 加州大學伯克利分校 CS285 《深度強化學習》課程,今天更新第十二講啦~
第十二講:基於模型的策略學習 新鮮出爐,這一講主要講的內容是變分推斷。上節課我們學習了基於模型的非策略強化學習,我們關注的是如何訓練出一個好的模型,還學到了不同版本的強化學習,比如model-based的強化學習0.5版、1.0版、1.5版等等。這些不同版本的演算法,本質上都不一樣,比如收集用於訓練模型的數據時。但後續的決策過程是完全一致的。
這一講最後一個部分,我們會討論局部策略是如何合併到更常用的全局策略的,講師用兩種方法:嚮導策略搜索和策略蒸餾(見PPT),讓這個概念更加清晰。
PC端觀看地址:
//www.yanxishe.com/overseasCourse/103
手機端觀看地址:
(掃描小程式二維碼後記得先點右上方加入小組)
翻譯 | 李東達、錢譽欽、詹好、烏木鴿
校對 | 唐里、Key
字幕 | 唐里
這門課程的譯者持續招募中,
感興趣的小夥伴可以添加字幕菌的企業微信報名翻譯哦!
(微信直接掃碼即可,無需下載企業微信)
與此同時,AI 研習社喊你加入課程學習小組,和上萬名熱愛學習的小夥伴們,一起研習海外經典課程。
掃描上方小程式二維碼,加入285課程小組,截圖發送給字幕君,PC端和手機端截圖都可,我們將你拉入285課程討論微信群
PPT:CS285 加州大學伯克利分校第一講至第二十一講(AI 研習社整理)
下載地址://www.yanxishe.com/resourceDetail/1118