- 目录
- 第一章 强化学习概述
- 第一章 习题
- 第二章 马尔可夫决策过程 (MDP)
- 第二章 习题
- 第三章 表格型方法
- 第三章 习题
- 项目一 使用 Q-learning 解决悬崖寻路问题
- 第四章 策略梯度
- 第四章 习题
- 第五章 近端策略优化 (PPO) 算法
- 第五章 习题
- 第六章 DQN (基本概念)
- 第六章 习题
- 第七章 DQN (进阶技巧)
- 第七章 习题
- 项目二 使用 DQN 实现 CartPole-v0
- 第八章 DQN (连续动作)
- 第八章 习题
- 第九章 演员-评论家算法
- 第九章 习题
- 第十章 稀疏奖励
- 第十章 习题
- 第十一章 模仿学习
- 第十一章 习题
- 第十二章 深度确定性策略梯度 (DDPG) 算法
- 第十二章 习题
- 项目三 使用 Policy-Based 方法实现 Pendulum-v0
- 第十三章 AlphaStar 论文解读