第十二講:基於模型的策略學習 | UC伯克利CS285深度強化學習

  • 2020 年 12 月 2 日
  • AI
2019 UC 伯克利 CS285 深度強化學習

雷鋒字幕組獲得官方授權,漢化翻譯 2019 加州大學伯克利分校 CS285 《深度強化學習》課程,今天更新第十二講啦~

第十二講:基於模型的策略學習  新鮮出爐,這一講主要講的內容是變分推斷。上節課我們學習了基於模型的非策略強化學習,我們關注的是如何訓練出一個好的模型,還學到了不同版本的強化學習,比如model-based的強化學習0.5版、1.0版、1.5版等等。這些不同版本的演算法,本質上都不一樣,比如收集用於訓練模型的數據時。但後續的決策過程是完全一致的。

這一講最後一個部分,我們會討論局部策略是如何合併到更常用的全局策略的,講師用兩種方法:嚮導策略搜索和策略蒸餾(見PPT),讓這個概念更加清晰。

PC端觀看地址:
//www.yanxishe.com/overseasCourse/103

手機端觀看地址:
(掃描小程式二維碼後記得先點右上方加入小組)

翻譯 | 李東達、錢譽欽、詹好、烏木鴿

校對 | 唐里、Key

字幕 | 唐里

這門課程的譯者持續招募中,

感興趣的小夥伴可以添加字幕菌的企業微信報名翻譯哦!

(微信直接掃碼即可,無需下載企業微信)

與此同時,AI 研習社喊你加入課程學習小組,和上萬名熱愛學習的小夥伴們,一起研習海外經典課程。

掃描上方小程式二維碼,加入285課程小組,截圖發送給字幕君,PC端和手機端截圖都可,我們將你拉入285課程討論微信群

課後資料

PPT:CS285 加州大學伯克利分校第一講至第二十一講(AI 研習社整理)

下載地址://www.yanxishe.com/resourceDetail/1118

課程截圖

點擊閱讀原文即可加入學習小組觀看課程