分层强化学习（Hierarchy RL）

发布日期: 2021-10-12

更新日期: 2021-10-13

阅读本文需要有深度强化学习基础，可以翻看我以前的文章：强化学习纲要（周博磊课程）、强化学习实践教学

参考原文：分层强化学习survey ，这篇文章讲的十分全面，重复内容不再赘述。

分层主要解决的是稀疏reward的问题，实际的强化问题往往reward很稀疏，再加上庞大的状态空间和动作空间组合，导致直接硬训往往训不出来，遇到头铁的agent更是如此。我们人类在解决一个复杂问题时，往往会将其分解为若干个容易解决的子问题，分而治之，分层的思想正是来源于此。个人理解目前分层的解决手段大体分两种，一种是基于目标的(goal-reach)，主要做法是选取一定的goal，使agent向着这些goal训练，可以预见这种方法的难点就是如何选取合适的goal；另一种方式是多级控制(multi-level control)，做法是抽象出不同级别的控制层，上层控制下层，这些抽象层在不同的文章中可能叫法不同，如常见的option、skill、macro action等，这种方式换一种说法也可以叫做时序抽象(temporal abstraction)。

SMDP

SMDP指的是半马尔科夫决策过程。和马尔科夫决策过程中一个状态经过一个action就能到达下一个状态不同，它需要一段时间过后或是多个action才能到达下个状态。它可以分为两种：一种是时间连续的，每经过连续的时间状态发生改变。一种是时间离散的，经过几个时间步之后状态发生改变。分层强化学习研究第二种，并按照离散时间进行建模。

h-DQN

h-DQN也叫hierarchy DQN。是一个整合分层actor-critic函数的架构，可以在不同的时间尺度上进行运作，具有以目标驱动为内在动机的DRL。该模型在两个结构层次上进行决策：顶级模块（元控制器）接受状态并选择目标，低级模块（控制器）使用状态和选择的目标来进行决策。我们可以使用不同时间尺度的随机梯度下降来训练模型，以优化预期的未来内在动机（对应控制器）和外部奖励（对应元控制）。这种处理延迟问题的优势是：在获得最佳外在奖励之前具有长状态链的离散随机决策过程。

元控制器接收状态并选择目标g，然后控制器使用状态和目标选择动作，目标在接下来的几个时间步中保持不变，直到达到目标或终止状态。内部的critic负责评估是否达到目标，并向控制器提供适当的奖励$r_t(g)$。在这项工作中，进行二元内部奖励的最小化，达到目标为1，否则为0。控制器的目标最大化累计内在奖励，元控制器的目的是优化累计的外在奖励。

控制器Q值函数：
$$
Q_1(s,a;g) = \max_{\pi_{a,g}} E[r_t + \gamma \max_{a_{t+1}}Q_1^*(s_{t+1},a_{t+1};g) | s_t = s,a_t=a,g_t=g,\pi_{a,g}]
$$
元控制器Q值函数：
$$
Q_2(s,g) = \max_{\pi_{a,g}} E[\sum_{t’=t}^{t+N}f_{t’}+ \gamma \max_{g’}Q_2^*(s_{t+N},g’) | s_t = s,g_t=g,\pi_{a,g}]
$$
N表示当前目标下，控制器停止之前的时间步数。