以此博客记录我的成长轨迹,与诸君共勉
强化学习之SAC 强化学习之SAC
参考视频:周博磊强化学习课程 价值函数优化学习主线:Q-learning→DQN→DDPG→TD3→SAC Q-Learning,DQN和DDPG请可以参考我之前的文章:强化学习实践教学 TD3可以参考我之前的博客:强化学习之TD3(p
2021-10-06
强化学习之TD3 强化学习之TD3
参考视频:https://www.bilibili.com/video/BV1EK41157fD/?spm_id_from=333.788.recommend_more_video.-1 原论文:https://arxiv.org/ab
2021-10-06
基于模型的深度强化学习(Model_based RL) 基于模型的深度强化学习(Model_based RL)
参考视频:周博磊强化学习纲要 阅读本文前需要对强化学习model-free领域有一定的了解,可以查看我之前的文章:《强化学习实践教学》,《强化学习纲要(周博磊课程)》 之前介绍的算法例如DQN,DDPG,PPO都是model-free
2021-10-05
强化学习之DQN超级进化版Rainbow 强化学习之DQN超级进化版Rainbow
阅读本文前可以先了解我前三篇文章《强化学习之DQN》《强化学习之DDQN》、《强化学习之 Dueling DQN》。 Rainbow结合了DQN算法的6个扩展改进,将它们集成在同一个智能体上,其中包括DDQN,Dueling DQN,Pr
2021-09-25
强化学习之DQN代码带讲解 强化学习之DQN代码带讲解
本代码取自周博磊强化学习课程https://space.bilibili.com/511221970/channel/detail?cid=105354&ctype=0 源码:https://download.csdn.net/
2021-09-13
强化学习之PPO 强化学习之PPO
阅读本文前先了解TRPO算法有助于理解,我对此也写过博客:https://blog.csdn.net/tianjuewudi/article/details/120191097 参考李宏毅老师的视频:https://www.bilibi
2021-09-08
强化学习之TRPO 强化学习之TRPO
​ 注:TRPO算是我至今遇到过的最难理解的算法了,我查了很多资料,花费好几天时间,也未曾理解,向TRPO的一作致敬。。。本文是我的查资料笔记,由于公式过多,可以先学比较重要的PPO。 ​ TRPO全称为Trust
2021-09-03
强化学习之A2C和A3C 强化学习之A2C和A3C
阅读本文可参考我以前的文章《强化学习实践教学》https://tianjuewudi.gitee.io/2021/07/16/qiang-hua-xue-xi-shi-jian-jiao-xue/#toc-heading-29,其中的连续
2021-09-02
强化学习之Dueling DQN 强化学习之Dueling DQN
注:本文续于《强化学习之DDQN》 Dueling DQN的思想是把神经网络中Q价值的输出分成两部分,第一部分是状态价值V,这部分价值由状态直接决定和Action无关。第二部分就是动作价值和状态价值的差值A,每一个Action都存在一个差
2021-08-29
强化学习之DDQN 强化学习之DDQN
知识基础DQN参考我的博文:https://tianjuewudi.gitee.io/2021/07/16/qiang-hua-xue-xi-shi-jian-jiao-xue/#toc-heading-19 DQN复习​ 我
2021-08-29
3 / 4