2小時學強化學習?DeepMind 首席科學家、原牛津大學教授Nando教程來了!

  • 2019 年 11 月 26 日
  • 筆記


【新智元導讀】任職於 DeepMind 的Nando de Freitas(原牛津大學教授)在KHIPU 2019上做了關於強化學習(RL)的教程,涵蓋了強化學習RL基礎概念、策略梯度、動態規劃以及D4PG、R2D3等RL演算法,並介紹了RL的應用。下文將包含Nando de Freitas個人及其課程的簡介。

在KHIPU 2019(Latin American Meeting In Artificial Intelligence)上,在DeepMind任職的Nando de Freitas做了教程《Reinforcement Learning》,用圖文、公式等詳細地介紹了強化學習的基礎和一些進階演算法。

Nando de Freitas簡介

Nando出生在辛巴威,患有瘧疾。他是莫坎比克戰爭的難民。他的父母借錢從貪官給他買一本護照,讓他能夠生活在葡萄牙馬德拉的一個火山岩小屋,沒有水和電,父母忙著償還債務也不在身邊,這種情況一直持續到歐盟到達那裡。

他在威特沃特斯蘭德大學(University of the Witwatersrand)獲得了電氣工程理學學士學位和控制理學碩士學位,後幸獲得劍橋大學三一學院(Trinity College, Cambridge University)神經網路貝葉斯方法博士學位,這要歸功於慈善人士提供的獎學金。

他在加州大學伯克利分校(UC Berkeley)獲得了人工智慧的博士後學位,並於2001年成為加拿大不列顛哥倫比亞大學(University of British Columbia)的教授,隨後在2013年成為英國牛津大學(University of Oxford)的教授。2017年,他以首席科學家的身份加入了DeepMind的全職工作,幫助解決智慧問題的願景,讓未來幾代人能夠過上更好的生活。Nando也是加拿大高級研究所的高級研究員,並獲得了一些學術獎項。

主頁介紹:

Nando de Freitas

《Reinforcement Learning》教程的內容


  • 強化學習概念
  • 策略梯度
  • 動態規劃
  • 深度Q網路
  • 分散式強化學習
  • D4PG(Distributed Distributional Deep Deterministic Policy Gradients)
  • PPO(Proximal Policy Optimization)和MPO(Maximum aposteriori Policy Optimisation)
  • R2D3(Recurrent Replay Distributed DQN from Demonstrations)
  • 強化學習應用:
    • AlphaX
    • Batch強化學習

教程部分截圖如下所示:

參考鏈接:

  • https://khipu.ai/program/
  • https://khipu.ai/03_nando_de_freitas/
  • https://drive.google.com/file/d/1kPc3fyOzt0I3Sdwt5EgHH5Bsn1Ng-h11/view?usp=sharing

新智元報道

來源:專知