First contact reinforcement learning

第一篇

  • 強化學習(Reinforcement Learning,RL,又譯為「增強學習」)這一名詞來源於行為心理學,表示生物為了趨利避害而更頻繁實施對自己有利的策略。例如,我每天工作中會根據策略決定做出各種動作。如果我的某種決定使我升職加薪,或者使我免遭處罰,那麼我在以後的工作中會更多採用這樣的策略。據此,心理學家Ivan Pavlov在1927年發表的專著中用「強化」(reinforcement)這一名詞來描述特定刺激使生物更趨向於採用某些策略的現象。強化行為的刺激可以稱為「強化物」(reinforcer)。
  • 因為強化物導致策略的改變被稱為「強化學習」。 心理學家Jack Michael與1975年發表文章《Positive and negative reinforcement,a distinction that is no longer necessary》,說明了強化包括正強化(positive reinforcement)和負強化(negative reinforcement),其中正強化使得生物趨向於獲得更多利益,負強化使得生物趨向於避免損害。升職加薪就是正強化,避免被解僱就是負強化。正強化和負強化都能夠起到強化的效果。
  • 人工智能(Artificial Intelligence,AI)領域中有許多類似的趨利避害的問題。例如,著名的圍棋AI程序AlphaGo可以根據不同的圍棋局勢下不同的棋。如果它下的好,它就會贏;如果下的不好,它就會輸。它根據下棋的經驗不斷改進自己的棋藝,這就和行為心理學中的情況如出一轍。所以,人工智能借用了行為心理學的這一概念,把與環境交互中趨利避害的學習過程稱為強化學習。 本篇介紹人工智能領域中強化學習的基礎知識,了解強化學習的學習方法,並給出強化學習中智能體和環境交互的編程實例。