First contact reinforcement learning

第一篇

  • 强化学习(Reinforcement Learning,RL,又译为“增强学习”)这一名词来源于行为心理学,表示生物为了趋利避害而更频繁实施对自己有利的策略。例如,我每天工作中会根据策略决定做出各种动作。如果我的某种决定使我升职加薪,或者使我免遭处罚,那么我在以后的工作中会更多采用这样的策略。据此,心理学家Ivan Pavlov在1927年发表的专著中用“强化”(reinforcement)这一名词来描述特定刺激使生物更趋向于采用某些策略的现象。强化行为的刺激可以称为“强化物”(reinforcer)。
  • 因为强化物导致策略的改变被称为“强化学习”。 心理学家Jack Michael与1975年发表文章《Positive and negative reinforcement,a distinction that is no longer necessary》,说明了强化包括正强化(positive reinforcement)和负强化(negative reinforcement),其中正强化使得生物趋向于获得更多利益,负强化使得生物趋向于避免损害。升职加薪就是正强化,避免被解雇就是负强化。正强化和负强化都能够起到强化的效果。
  • 人工智能(Artificial Intelligence,AI)领域中有许多类似的趋利避害的问题。例如,著名的围棋AI程序AlphaGo可以根据不同的围棋局势下不同的棋。如果它下的好,它就会赢;如果下的不好,它就会输。它根据下棋的经验不断改进自己的棋艺,这就和行为心理学中的情况如出一辙。所以,人工智能借用了行为心理学的这一概念,把与环境交互中趋利避害的学习过程称为强化学习。 本篇介绍人工智能领域中强化学习的基础知识,了解强化学习的学习方法,并给出强化学习中智能体和环境交互的编程实例。