ICML2018強化學習部分總結(1)
- 2019 年 11 月 21 日
- 筆記
最近由於個人比較忙的原因,文章更新速度有點慢,還望大家諒解!今天主要分享一下前沿動態,不更新演算法講解!
人工智慧的發展方向,基本可以從每年高峰會(ICML, NPIS, CVPR)上可以看出,今年ICML於7月10號在著名的瑞典斯德哥爾摩舉行,說起斯德哥爾摩,唯一能讓我想起的就是"斯德哥爾摩綜合征",自行google. 下面進入主題.
本文是根據David Abel 的筆進行整理,原英文見文末引用, ICML中關於RL的內容在第2,3,4,6天,
(1)基於模型的RL救援(Model-Based RL To The Rescue)
主要思路:收集一些模擬數據,應該有

一個想法是通過監督學習來適應動態:

然後,解決近似問題,與LQR相同,但使用φ作為模型。
這裡的難點是我們解決的控制問題是什麼? 我們知道我們的模型並不完美。 從而
我們需要像Robust Control / Coarse-ID控制這樣的東西。
在Coarse-ID控制中:
• 解決

受

的影響,B未知。
• 然後,收集數據:

• 估計B:

• 估計

然後,我們可以將其轉換為強大的優化問題:

受x = Bu + x0的影響。 然後我們可以通過三角不等式將其放寬到一個凸問題:

受同樣的約束。 他們展示了如何將估計誤差轉換為LQR系統中的控制誤差 – 有點像來自Yields基於穩健模型的控制的模擬引理:顯示了一些實驗結果,一直很好(肯定比無模型更好)。
回歸線性化原則:現在,當我們消除線性時會發生什麼?(QR?)。 他們嘗試在MuJocoo上運行隨機搜索演算法,並發現它做得更好(或至少同樣好)的自然灰度法和TRPO。 Bens'提出的前進方向:使用模型。 特別是模型預測控制(MPC):

想法:計劃在短時間內,獲得回饋,重新計劃。
結論和剩下要做的事情:
• 粗ID結果是否最佳? 甚至w.r.t. 問題參數?
• 我們能否針對各種控制問題獲得緊張和較低的樣本複雜性?
• 自適應和迭代學習控制
• 非線性模型,約束和不正確的學習。
• 安全探索,了解不確定的環境。
所以,有很多令人興奮的事情要做! 而且不只是RL而不僅僅是控制理論。 也許我們需要一個更具包容性的新名稱,如「Actionable Intelligence」。 所以,得出結論:

本部分完,
這是原作者英文版,地址:https://pan.baidu.com/s/1R8LtR262FKoHOSrXTj4f2Q,密碼:jz9z