First contact reinforcement learning

2020 年 10 月 23 日
AI
Python, TensorFlow, 算法

第一篇

强化学习（Reinforcement Learning，RL，又译为“增强学习”）这一名词来源于行为心理学，表示生物为了趋利避害而更频繁实施对自己有利的策略。例如，我每天工作中会根据策略决定做出各种动作。如果我的某种决定使我升职加薪，或者使我免遭处罚，那么我在以后的工作中会更多采用这样的策略。据此，心理学家Ivan Pavlov在1927年发表的专著中用“强化”（reinforcement）这一名词来描述特定刺激使生物更趋向于采用某些策略的现象。强化行为的刺激可以称为“强化物”（reinforcer）。
因为强化物导致策略的改变被称为“强化学习”。心理学家Jack Michael与1975年发表文章《Positive and negative reinforcement，a distinction that is no longer necessary》，说明了强化包括正强化（positive reinforcement）和负强化（negative reinforcement），其中正强化使得生物趋向于获得更多利益，负强化使得生物趋向于避免损害。升职加薪就是正强化，避免被解雇就是负强化。正强化和负强化都能够起到强化的效果。
人工智能（Artificial Intelligence，AI）领域中有许多类似的趋利避害的问题。例如，著名的围棋AI程序AlphaGo可以根据不同的围棋局势下不同的棋。如果它下的好，它就会赢；如果下的不好，它就会输。它根据下棋的经验不断改进自己的棋艺，这就和行为心理学中的情况如出一辙。所以，人工智能借用了行为心理学的这一概念，把与环境交互中趋利避害的学习过程称为强化学习。本篇介绍人工智能领域中强化学习的基础知识，了解强化学习的学习方法，并给出强化学习中智能体和环境交互的编程实例。

Tags: Python TensorFlow 算法

First contact reinforcement learning

第一篇

VirMach 便宜 VPS

QNews

First contact reinforcement learning

第一篇

分享此文：

Related Posts

查找算法系列文（一）一文入门二叉树

ICLR 2020丨论“邻里关系”的学问：度量和改进图信息在图神经网络中的使用

“羊毛党”福音！Epic：没想到吧？游戏白送

对象部分初始化：原理以及验证代码（双重检查锁与volatile相关）

VirMach 便宜 VPS

QNews

热门文章

热门搜寻