2小時學強化學習?DeepMind 首席科學家、原牛津大學教授Nando教程來了!
- 2019 年 11 月 26 日
- 筆記

【新智元導讀】任職於 DeepMind 的Nando de Freitas(原牛津大學教授)在KHIPU 2019上做了關於強化學習(RL)的教程,涵蓋了強化學習RL基礎概念、策略梯度、動態規劃以及D4PG、R2D3等RL演算法,並介紹了RL的應用。下文將包含Nando de Freitas個人及其課程的簡介。
在KHIPU 2019(Latin American Meeting In Artificial Intelligence)上,在DeepMind任職的Nando de Freitas做了教程《Reinforcement Learning》,用圖文、公式等詳細地介紹了強化學習的基礎和一些進階演算法。
Nando de Freitas簡介
Nando出生在辛巴威,患有瘧疾。他是莫坎比克戰爭的難民。他的父母借錢從貪官給他買一本護照,讓他能夠生活在葡萄牙馬德拉的一個火山岩小屋,沒有水和電,父母忙著償還債務也不在身邊,這種情況一直持續到歐盟到達那裡。

他在威特沃特斯蘭德大學(University of the Witwatersrand)獲得了電氣工程理學學士學位和控制理學碩士學位,後幸獲得劍橋大學三一學院(Trinity College, Cambridge University)神經網路貝葉斯方法博士學位,這要歸功於慈善人士提供的獎學金。
他在加州大學伯克利分校(UC Berkeley)獲得了人工智慧的博士後學位,並於2001年成為加拿大不列顛哥倫比亞大學(University of British Columbia)的教授,隨後在2013年成為英國牛津大學(University of Oxford)的教授。2017年,他以首席科學家的身份加入了DeepMind的全職工作,幫助解決智慧問題的願景,讓未來幾代人能夠過上更好的生活。Nando也是加拿大高級研究所的高級研究員,並獲得了一些學術獎項。
主頁介紹:
《Reinforcement Learning》教程的內容
- 強化學習概念
- 策略梯度
- 動態規劃
- 深度Q網路
- 分散式強化學習
- D4PG(Distributed Distributional Deep Deterministic Policy Gradients)
- PPO(Proximal Policy Optimization)和MPO(Maximum aposteriori Policy Optimisation)
- R2D3(Recurrent Replay Distributed DQN from Demonstrations)
- 強化學習應用:
- AlphaX
- Batch強化學習
教程部分截圖如下所示:




















參考鏈接:
- https://khipu.ai/program/
- https://khipu.ai/03_nando_de_freitas/
- https://drive.google.com/file/d/1kPc3fyOzt0I3Sdwt5EgHH5Bsn1Ng-h11/view?usp=sharing
新智元報道
來源:專知