First contact reinforcement learning 「3」

强化学习的分类

根据强化学习的任务和环境,可以将强化学习任务划分为一下几个类.

任务分类
  • 回合制任务(Episodic Task) 和 连续性任务(Sequential Task): 对于回合制任务,可以有明确的开始结束状态,例如一场棋局就是一个回合,当下一个回合开始的时候一切重新开始, 也有一些问题没有明确的开始结束状态, 例如机房资源的调度,机房从启用的时候就要开始不断的去处理各种信息, 不可能说什么时候结束一下重新开始.
  • 离散时间环境(Discete time environment) 和连续时间环境(Continuous time environment) ,如果智能体和环境的交互是在连续的时间进行的,那么就是连续时间环境.
  • 离散动作空间(Discrete action space) 和连续动作空间(Continuous action space) 这个是根据决策者可以作出的动作数量来划分的, 如果决策者得到的动作数目是有限的则为离散动作空间,否则为连续动作空间.
  • 确定性环境任务(Deterministic environment)和非确定性环境(Stochastic environment):按照环境是否具有随机性,可以将强化学习的环境分为确定性环境和非确定性环境。例如,对于机器人走固定的某个迷宫的问题,只要机器人确定了移动方案,那么结果就总是一成不变的。这样的环境就是确定性的。但是,如果迷宫会时刻随机变化,那么机器人面对的环境就是非确定性的.
  • 完全可观测环境(Fully observable environment)和非完全可观测环境(Partially observable environment):如果智能体可以观测到环境的全部知识,则环境是完全可观测的;如果智能体只能观测到环境的部分知识,则环境不是完全可观测。例如,围棋就可以看作是一个完全可观测的问题,因为我们可以看到棋盘的所有内容,并且假设对手总是用最优方法执行;扑克则不是完全可观测的,因为我们不知道对手手里有哪些牌.
  • 单智能体任务(single agent task)和多智能体任务(multi-agent task):顾名思义,根据系统中的智能体数量,可以将任务划分为单智能体任务和多智能体任务。单智能体任务中只有一个决策者,它能得到所有可以观察到的观测,并能感知全局的奖励值;多智能体任务中有多个决策者,它们只能知道自己的观测,感受到环境给它的奖励。当然,在有需要的情况下,多个智能体间可以交换信息。在多智能体任务中,不同智能体奖励函数的不同会导致它们有不同的学习目标(甚至是互相对抗的).

算法分类 ·
  • 同策学习(on policy)和异策学习(off policy):同策学习是边决策边学习,学习者同时也是决策者。异策学习则是通过之前的历史(可以是自己的历史也可以是别人的历史)进行学习,学习者和决策者不需要相同.在异策学习的过程中,学习者并不一定要知道当时的决策.例如,围棋AI可以边对弈边学习,这就算同策学习;围棋AI也可以通过阅读人类的对弈历史来学习,这就算异策学习.
  • 有模型学习(model-based)和无模型学习(model free):有模型学习需要对环境进行建模,在实际环境之外再搭建一套假的环境来模拟真实环境,再利用假的环境进行学习.例如,对于某个围棋AI,它在下棋的时候可以虚拟出另外一个棋盘并在虚拟棋盘上试下,并通过试下来学习.这就是有模型学习.与之相对,无模型学习不需要关于环境的信息,不需要搭建假的环境模型,所有经验都是通过与真实环境交互得到.
  • 回合更新(Monte Carlo update)和时序差分更新(temporal difference update):回合制更新是在回合结束后利用整个回合的信息进行更新学习;而时序差分更新不需要等回合结束,可以综合利用现有的信息和现有的估计进行更新学习.
  • 基于价值(value based)和基于策略(policy based):基于价值的强化学习定义了状态或动作的价值函数,来表示到达某种状态或执行某种动作后可以达到的回报.基于价值的强化学习倾向于选择价值最大的状态或动作;基于策略的强化学习算法不需要定义价值函数,它可以为动作分配概率分布,按照概率分布来执行动作.
  • 深度强化学习(deep reinforcement learning,DRL)算法和非深度强化学习算法.如果强化学习算法用到了深度学习,则这种强化学习可以称为深度强化学习算法.

WechatIMG76.jpeg


「First contact reinforcement learning 完结···」
「续 · 第二节」