参考论文:https://arxiv.org/pdf/2109.06668.pdf
参考链接:
https://zhuanlan.zhihu.com/p/432198920
https://zhuanlan.zhihu.com/p/188714833
类型一:基于不确定性
这类做法认为智能体对某区域更⾼的不确定性(Uncertainty)往往是因为对该区域不充分的探索导致的,因此乐观地对待不确定性,也即引导智能体去探索不确定性⾼的地⽅,可以实现⾼效探索的⽬的。但访问不确定性高的区域又会导致学习过程的不稳定,因此要做到平衡。
代表算法Bootstrapped DQN:通过训练多个网络来使网络产生差异性,网络之间就能学习到不同的信息,从而使得决策不那么片面。
参考链接:https://zhuanlan.zhihu.com/p/192484077
类型二:内在奖励形式
ICM:好奇心机制
RND:随机网络蒸馏
参考链接:https://blog.csdn.net/tianjuewudi/article/details/121692726
类型三:其他形式
- 使用具有不同探索行为的异构actor,以不同的方式探索环境。例如Ape-x、R2D2。
- 基于参数空间噪声的探索,不同于对策略输出增加噪声,采⽤噪声对策略参数进⾏扰动,可以使得探索更加多样化,同时保持⼀致性,典型⼯作包括NoisyNet等。
- 其他的有Go-Explore,MAVEN等。
探索策略的四大挑战
- ⼤规模状态动作空间。状态动作空间的增加意味着智能体需要探索的空间变⼤,就⽆疑导致了探索难度的增加。
- 稀疏、延迟奖励信号。稀疏、延迟的奖励信号会使得智能体的学习⾮常困难,⽽探索机制合理与否直接影响了学习效率。
- 观测中的⽩噪声。现实世界的环境通常具有很⾼的随机性,即状态或动作空间中通常会出现不可预测的内容,在探索过程中避免⽩噪声的影响也是提升效率的重要因素。
- 多智能体探索挑战。多智能体任务下,除了上述挑战,指数级增长的状态动作空间、智能体间协同探索、局部探索和全局探索的权衡都是影响多智能体探索效率的重要因素。
评价标准
有三种:蒙特祖玛的复仇,雅达利,Vizdoon。
蒙特祖玛的复仇由于其稀疏、延迟的奖励成为⼀个较难解决的任务,需要RL智能体具有较强的探索能⼒才能获得正反馈;⽽穿越多个房间并获得⾼分则进⼀步需要⼈类⽔平的记忆和对环境中事件的控制。整个雅达利系列侧重于对提⾼RL 智能体学习性能的探索⽅法进⾏更全⾯的评估。Vizdoom是另⼀个具有多种奖励配置(从密集到⾮常稀疏)的代表性任务。与前两个任务不同的是,Vizdoom是⼀款带有第⼀⼈称视⻆的导航(和射击)游戏。这模拟了⼀个具有严重的局部可观测性和潜在空间结构的学习环境,更类似于⼈类⾯对的现实世界的学习环境。
未来的研究方向
- 在⼤规模动作空间的探索。在⼤规模动作空间上,融合表征学习、动作语义等⽅法,降低探索算法的计算复杂度仍然是⼀个急需解决的问题。
- 在复杂任务(时间步较长、极度稀疏、延迟的奖励设置)上的探索,虽然取得了一定的进展,⽐如蒙特祖玛的复仇,但这些解决办法代价通常较⼤,甚⾄要借助⼤量⼈类先验知识。这其中还存在较多普遍性的问题值得探索。
- ⽩噪声问题。现有的⼀些解决⽅案都需要额外估计动态模型或状态表征,这⽆疑增加了计算消耗。除此之外,针对⽩噪声问题,利⽤对抗训练等⽅式增加探索的鲁棒性也是值得研究的问题。
- 收敛性。在⾯向不确定性的探索中,线性MDP下认知不确定性是可以收敛到0的,但在深度神经⽹络下维度爆炸使得收敛困难。对于⾯向内在激励的探索,内在激励往往是启发式设计的,缺乏理论上合理性论证。
- 多智能体探索。多智能体探索的研究还处于起步阶段,尚未很好地解决上述问题,如局部观测、不稳定、协同探索等。