以此博客记录我的成长轨迹,与诸君共勉
强化学习中的自我博弈(self-play) 强化学习中的自我博弈(self-play)
自我博弈(Self-Play)[1]是应用于智能体于智能体之间处于对抗关系的训练方法,这里的对抗关系指的是一方的奖励上升必然导致另一方的奖励下降。通过轮流训练双方的智能体就能使得双方的策略模型的性能得到显著提升,使得整个对抗系统达到正和博弈
2024-06-21
Unity强化学习值Arena Unity强化学习值Arena
多智能体强化学习平台
2022-10-25
强化学习库PARL的使用 强化学习库PARL的使用
强大的强化学习库,代码整洁易懂
2022-03-20
强化学习PPO代码讲解 强化学习PPO代码讲解
阅读本文前对PPO的基本原理要有概念性的了解,本文基于我的上一篇文章:强化学习之PPO 当然,查看代码对于算法的理解直观重要,这使得你的知识不止停留在概念的层面,而是深入到应用层面。 代码采用了简单易懂的强化学习库PARL,对新手十分友好
2022-03-20
offline强化学习之Revive SDK的使用 offline强化学习之Revive SDK的使用
官网:https://www.revive.cn/ 官方教程:https://revive.cn/help/polixir-revive-sdk/index.html 面临的挑战强化学习自主试错学习的方式,减少了对人力的依赖,也因此被Dee
2022-01-17
多智能体强化学习算法MA-POCA 多智能体强化学习算法MA-POCA
论文原文:On the Use and Misuse of Absorbing States in Multi-agent Reinforcement Learning 预备知识参考: 强化学习纲要(周博磊课程) 强化学习实践教学 多智能
2021-12-29
论文阅读:Variational Discriminator Bottleneck 论文阅读:Variational Discriminator Bottleneck
对判别器进行信息约束来达到更为稳定的生成对抗训练
2021-12-24
强化学习中的好奇心奖励机制 强化学习中的好奇心奖励机制
参考视频:李宏毅强化学习系列 参考论文: Large-Scale Study of Curiosity-Driven Learning Curiosity-driven Exploration by Self-supervised Pred
2021-12-02
1 / 4