First contact reinforcement learning 「2」

第一篇·續

強化學習及重要元素

在人工智慧領域中,強化學習是特定的機器學習問題,在一個強化學習系統中,決策者可以觀察環境並根據觀測作出對應的行動並在行動之後獲得獎勵.強化學習是通過與環境的交互來學習如何作出最大化獎勵.強化學習的最大特點就是在學習過程中沒有正確的答案,是通過獎勵訊號來學習.

所以,強化學習系統中有兩個重要、關鍵的元素

  • reward 獎勵—強化學習的學習目標.
  • policy 策略—決策者會根據觀測決定採用不同的動作.

強化學習與監督學習和非監督學習有著本質上的區別.

  • 強化學習於監督學習的區別在於: 對於監督學習,學習者知道每個動作的正確答案是什麼,隨即可以通過逐步比對來學習; 而對於強化學習,學習者不知道每個動作的正確答案是什麼,只能通過獎勵訊號開學習, 強化學習要最大化一段時間內的獎勵, 所以需要關注的是更加長遠的性能. 但是與此同時監督學習希望能夠把學習的結果運用到未知的數據、需求結果可以廣泛使用; 強化學習的結果可以運用在訓練環境中. 所以監督學習一般用於判斷、預測等; 而強化學習不適用於這樣的任務.
  • 強化學習與非監督學習的區別在於: 非監督學習是在發現數據之間隱含的結構, 而強化學習有著明確的數值目標,也就是上面提到過的「reward · 獎勵」兩者研究的目的不同.即,一般用於聚類等任務會使用非監督學習,強化學習不適用於這樣的任務.
強化學習應用與哪些方面

對於強化學習的人工智慧已經有了很多成功的案例.

棋盤遊戲: 棋牌遊戲是黑白棋、五子棋等桌面遊戲的統稱,通過強化學習可以實現各種棋盤上的AI, 棋盤AI有著明確的目標—成功且提高勝率, 但是每一步都沒有正確的答案,這正是強化學習所針對的應用場景; 最熟悉的實例就是 Deepmind 公司使用強化學習研發出的圍棋AI「AlphaGo」俗稱「阿爾法狗」,於17年戰勝世界第一的圍棋高手,引起了全球人工智慧領域的關注···

自動駕駛: 自動駕駛是通過控制油門、剎車、方向盤等裝置完成各種行駛目標,有著明確的目標「從A點到B點」但是每一個具體的動作卻沒有一個標準的答案作為參考, 這正是強化學習的任務.

篇幅不宜過長.慢慢消化.有疑問可以在下方評論…「續」