ICML2018強化學習部分總結(1) - ⎝⎛CodingNote.cc ⎞⎠

ICML2018強化學習部分總結(1)

2019 年 11 月 21 日
筆記

最近由於個人比較忙的原因，文章更新速度有點慢，還望大家諒解！今天主要分享一下前沿動態，不更新演算法講解！

人工智慧的發展方向，基本可以從每年高峰會(ICML, NPIS, CVPR)上可以看出，今年ICML於７月10號在著名的瑞典斯德哥爾摩舉行，說起斯德哥爾摩，唯一能讓我想起的就是＂斯德哥爾摩綜合征＂，自行google. 下面進入主題．

本文是根據David Abel 的筆進行整理，原英文見文末引用, ICML中關於ＲＬ的內容在第2,3,4,6天，

（１）基於模型的RL救援(Model-Based RL To The Rescue)

主要思路：收集一些模擬數據，應該有

一個想法是通過監督學習來適應動態：

然後，解決近似問題，與LQR相同，但使用φ作為模型。

這裡的難點是我們解決的控制問題是什麼？我們知道我們的模型並不完美。從而

我們需要像Robust Control / Coarse-ID控制這樣的東西。

在Coarse-ID控制中：

• 解決

受

的影響，B未知。

• 然後，收集數據：

• 估計B：

• 估計

然後，我們可以將其轉換為強大的優化問題：

受x = Bu + x0的影響。然後我們可以通過三角不等式將其放寬到一個凸問題：

受同樣的約束。他們展示了如何將估計誤差轉換為LQR系統中的控制誤差 – 有點像來自Yields基於穩健模型的控制的模擬引理：顯示了一些實驗結果，一直很好（肯定比無模型更好）。

回歸線性化原則：現在，當我們消除線性時會發生什麼？（QR？）。他們嘗試在MuJocoo上運行隨機搜索演算法，並發現它做得更好（或至少同樣好）的自然灰度法和TRPO。 Bens'提出的前進方向：使用模型。特別是模型預測控制（MPC）：

想法：計劃在短時間內，獲得回饋，重新計劃。

結論和剩下要做的事情：

• 粗ID結果是否最佳？甚至w.r.t. 問題參數？

• 我們能否針對各種控制問題獲得緊張和較低的樣本複雜性？

• 自適應和迭代學習控制

• 非線性模型，約束和不正確的學習。

• 安全探索，了解不確定的環境。

所以，有很多令人興奮的事情要做！而且不只是RL而不僅僅是控制理論。也許我們需要一個更具包容性的新名稱，如「Actionable Intelligence」。所以，得出結論：

本部分完，

這是原作者英文版，地址：https://pan.baidu.com/s/1R8LtR262FKoHOSrXTj4f2Q，密碼：jz9z

Previous post

binlog入門解讀

Next post

數據運算最優雅的5個的Numpy函數