First contact reinforcement learning

2020 年 10 月 23 日
AI
Python, TensorFlow, 算法

第一篇

強化學習（Reinforcement Learning，RL，又譯為「增強學習」）這一名詞來源於行為心理學，表示生物為了趨利避害而更頻繁實施對自己有利的策略。例如，我每天工作中會根據策略決定做出各種動作。如果我的某種決定使我升職加薪，或者使我免遭處罰，那麼我在以後的工作中會更多採用這樣的策略。據此，心理學家Ivan Pavlov在1927年發表的專著中用「強化」（reinforcement）這一名詞來描述特定刺激使生物更趨向於採用某些策略的現象。強化行為的刺激可以稱為「強化物」（reinforcer）。
因為強化物導致策略的改變被稱為「強化學習」。心理學家Jack Michael與1975年發表文章《Positive and negative reinforcement，a distinction that is no longer necessary》，說明了強化包括正強化（positive reinforcement）和負強化（negative reinforcement），其中正強化使得生物趨向於獲得更多利益，負強化使得生物趨向於避免損害。升職加薪就是正強化，避免被解僱就是負強化。正強化和負強化都能夠起到強化的效果。
人工智能（Artificial Intelligence，AI）領域中有許多類似的趨利避害的問題。例如，著名的圍棋AI程序AlphaGo可以根據不同的圍棋局勢下不同的棋。如果它下的好，它就會贏；如果下的不好，它就會輸。它根據下棋的經驗不斷改進自己的棋藝，這就和行為心理學中的情況如出一轍。所以，人工智能借用了行為心理學的這一概念，把與環境交互中趨利避害的學習過程稱為強化學習。本篇介紹人工智能領域中強化學習的基礎知識，了解強化學習的學習方法，並給出強化學習中智能體和環境交互的編程實例。

Tags: Python TensorFlow 算法

First contact reinforcement learning

第一篇

VirMach 便宜 VPS

QNews

First contact reinforcement learning

第一篇

分享此文：

Related Posts

數字新生-2022製造行業釘峰會

pymssql 介紹

「羊毛黨」福音！Epic：沒想到吧？遊戲白送

對象部分初始化：原理以及驗證代碼（雙重檢查鎖與volatile相關）

VirMach 便宜 VPS

QNews

熱門文章

熱門搜尋