First contact reinforcement learning 「2」
第一篇·续
强化学习及重要元素
在人工智能领域中,强化学习是特定的机器学习问题,在一个强化学习系统中,决策者可以观察环境并根据观测作出对应的行动并在行动之后获得奖励.强化学习是通过与环境的交互来学习如何作出最大化奖励.强化学习的最大特点就是在学习过程中没有正确的答案,是通过奖励信号来学习.
所以,强化学习系统中有两个重要、关键的元素
- reward 奖励—强化学习的学习目标.
- policy 策略—决策者会根据观测决定采用不同的动作.
强化学习与监督学习和非监督学习有着本质上的区别.
- 强化学习于监督学习的区别在于: 对于监督学习,学习者知道每个动作的正确答案是什么,随即可以通过逐步比对来学习; 而对于强化学习,学习者不知道每个动作的正确答案是什么,只能通过奖励信号开学习, 强化学习要最大化一段时间内的奖励, 所以需要关注的是更加长远的性能. 但是与此同时监督学习希望能够把学习的结果运用到未知的数据、需求结果可以广泛使用; 强化学习的结果可以运用在训练环境中. 所以监督学习一般用于判断、预测等; 而强化学习不适用于这样的任务.
- 强化学习与非监督学习的区别在于: 非监督学习是在发现数据之间隐含的结构, 而强化学习有着明确的数值目标,也就是上面提到过的「reward · 奖励」两者研究的目的不同.即,一般用于聚类等任务会使用非监督学习,强化学习不适用于这样的任务.
强化学习应用与哪些方面
对于强化学习的人工智能已经有了很多成功的案例.
棋盘游戏: 棋牌游戏是黑白棋、五子棋等桌面游戏的统称,通过强化学习可以实现各种棋盘上的AI, 棋盘AI有着明确的目标—成功且提高胜率, 但是每一步都没有正确的答案,这正是强化学习所针对的应用场景; 最熟悉的实例就是 Deepmind 公司使用强化学习研发出的围棋AI「AlphaGo」俗称“阿尔法狗”,于17年战胜世界第一的围棋高手,引起了全球人工智能领域的关注···
自动驾驶: 自动驾驶是通过控制油门、刹车、方向盘等装置完成各种行驶目标,有着明确的目标「从A点到B点」但是每一个具体的动作却没有一个标准的答案作为参考, 这正是强化学习的任务.