强化学习专栏
- 第一周:强化学习基础概念
- 第二周:强化学习理论宗派
- 第三周:强化学习与监督学习
- 第四周:强化学习的实验环境
- 第五周:强化学习中的数学基础
- 第六周:强化学习中优化策略
- 第七周:强化学习中的实验环境构建
- 第八周:强化学习基本算法
- 第九周:最优价值算法 Q-learning 和 DQN 算法
- 第十周:基于策略梯度的算法
- 第十一周:稀疏回报求解和 Model-based 算法
- 第十二周:反向强化学习算法
- 第十三周:强化学习在 AlphaZero 中的应用
- 第十四周:强化学习与推荐检索系统
- 第十五周:强化学习与无人驾驶
- 第十六周:强化学习与对战游戏
- 第十七周:强化学习与路径规划和飞行控制
- 第十八周:强化学习与动态规划
- 第十九周:强化学习与量化交易
- 第二十周:强化学习与自然语言处理
- 第二十一周:强化学习在 AutoML 中的应用
- 第二十二周:强化学习与机器人控制
- 第二十三周:强化学习与智能医疗
- 第二十四周:强化学习与智能城市
- 第二十五周:强化学习与智能制造
- 第二十六周:强化学习与环境保护
- 第二十七周:强化学习与空间探索
- 第二十八周:强化学习与金融科技
- 第二十九周:强化学习与智能农业
- 第三十周:强化学习与网络安全
- 第三十一周:What is Reinforcement Learning
- 第三十二周:OpenAI gym
- 第三十三周:OpenAI Gym API
- 第三十四周:DeepLearning with PyTorch
- 第三十五周:The Cross-Entropy Methods
- 第三十六周:Tabular Learning and the Bellman Equation
- 第三十七周:Deep Q-networks
- 第三十八周:DQN extensions
- 第三十九周:stocks trading using RL
- 第四十周:Policy Gradients: an alternative
- 第四十一周:The Actor-Critic Methods
- 第四十二周:Asynchronous Advantage Actor-Critic
- 第四十三周:Chatbot Training with RL
- 第四十四周:Web Navigation
- 第四十五周:Continuous Action Space
- 第四十六周:Trust regions--TRPO,PPO,and ACKTR
- 第四十七周:Black-box Optimization in RL
- 第四十八周:Beyond Model-Free -- Imagination
- 第四十九周:An on Atari Breakout
- 第五十周:AlphaGO Zero
- 第五十一周:开山鼻祖 DQN 系列
- 第五十二周:基于策略梯度的深度强化学习
- 第五十三周:分层 Deep Reinforcement Learning
- 第五十四周:Deep Reinforcement Learning 多任务和迁移学习
- 第五十五周:基于外部记忆模块的 Deep Reinforcement Learning
- 第五十六周:Deep Reinforcement Learning 中探索和利用问题
- 第五十七周:多 Agent Deep Reinforcement Learning 问题
- 第五十八周:逆向深度强化学习专题
- 第五十九周:探索和监督学习
- 第六十周:异步深度强化学习
- 第六十一周:强化学习与模仿学习
- 第六十二周:强化学习与 GCN 交叉研究综述
- 第六十三周:强化学习与 CNN 交叉研究综述
- 第六十四周:强化学习与 RNN 交叉研究综述
- 第六十五周:强化学习与 AutoML 交叉研究综述
- 第六十六周:强化学习与GAN交叉研究综述
- 第六十七周:强化学习与迁移学习热点综述
- 第六十八周:强化学习与模仿学习热点综述
- 第六十九周:反向强化学习热点综述
- 第七十周:强化学习未来发展方向综述
- 第七十一周:强化学习在医疗领域的应用
- 第七十二周:强化学习在教育领域的应用
- 第七十三周:强化学习在能源管理中的应用
- 第七十四周:强化学习在交通管理中的应用
- 第七十五周:强化学习在客户服务中的应用
- 第七十六周:强化学习在物流与供应链管理中的应用
- 第七十七周:医疗领域中的强化学习案例分析
- 第七十八周:教育领域中的强化学习案例分析
- 第七十九周:能源管理中的强化学习案例分析
- 第八十周:交通管理中的强化学习案例分析
- 第八十一周:客户服务中的强化学习案例分析
- 第八十二周:物流与供应链管理中的强化学习案例分析
- 第八十三周:深度 Q 网络(DQN)详解
- 第八十四周:DQN 的优化与扩展
- 第八十五周:基于策略梯度的方法
- 第八十六周:Actor-Critic 方法详解
- 第八十七周:基于 A3C 的并行计算
- 第八十八周:强化学习在自动驾驶中的应用
- 第八十九周:强化学习在智能交通中的应用
- 第九十周:强化学习在机器人控制中的应用
- 第九十一周:强化学习在智能制造中的应用
- 第九十二周:强化学习在金融科技中的应用
- 第九十三周:深度强化学习中的探索策略
- 第九十四周:基于模型的强化学习
- 第九十五周:分层强化学习
- 第九十六周:多任务强化学习
- 第九十七周:迁移学习与强化学习的结合
- 第九十八周:强化学习的伦理问题
- 第九十九周:强化学习与人类学习的对比
- 第一百周:强化学习与神经科学的联系
- 第一百零一周:强化学习的工业应用前景
- 第一百零二周:强化学习与人工智能的未来
- 第一百零三周:强化学习工具箱
- 第一百零四周:OpenAI Gym 详解
- 第一百零五周:使用 PyTorch 进行强化学习
- 第一百零六周:使用 TensorFlow 进行强化学习
- 第一百零七周:构建自己的强化学习环境
- 第一百零八周:强化学习项目实战
- 第一百零九周:强化学习在游戏中的应用
- 第一百一十周:强化学习在机器人控制中的应用
- 第一百一十一周:大数据在强化学习中的应用
- 第一百一十二周:数据预处理与清洗
- 第一百一十三周:数据增强技术
- 第一百一十四周:数据分析与可视化
-
第一百一十五周:强化学习与大数据的融合案例
-
第一百一十六周:数据驱动的强化学习项目
-
第一百一十七周:大数据环境下的强化学习优化
- 第一百一十八周:边缘计算简介
- 第一百一十九周:边缘计算在强化学习中的应用
- 第一百二十周:边缘设备上的强化学习项目
- Sutton, R. S., & Barto, A. G. (2018). Reinforcement Learning: An Introduction. MIT Press.
- Mnih, V., Kavukcuoglu, K., Silver, D., Rusu, A. A., Veness, J., Bellemare, M. G., ... & Hassabis, D. (2015). Human-level control through deep reinforcement learning. Nature, 518(7540), 529-533.
- Silver, D., Huang, A., Maddison, C. J., Guez, A., Sifre, L., Van Den Driessche, G., ... & Hassabis, D. (2016). Mastering the game of Go with deep neural networks and tree search. Nature, 529(7587), 484-489.
- Lillicrap, T. P., Hunt, J. J., Pritzel, A., Heess, N., Erez, T., Tassa, Y., ... & Wierstra, D. (2016). Continuous control with deep reinforcement learning. arXiv preprint arXiv:1509.02971.
- Schulman, J., Wolski, F., Dhariwal, P., Radford, A., & Klimov, O. (2017). Proximal policy optimization algorithms. arXiv preprint arXiv:1707.06347.
- Levine, S., Pastor, P., Krizhevsky, A., Ibarz, J., & Quillen, D. (2018). Learning hand-eye coordination for robotic grasping with deep learning and large-scale data collection. The International Journal of Robotics Research, 37(4-5), 421-436.
- Van Hasselt, H., Guez, A., & Silver, D. (2016). Deep reinforcement learning with double Q-learning. In Proceedings of the AAAI Conference on Artificial Intelligence (Vol. 30, No. 1).
- Bellemare, M. G., Naddaf, Y., Veness, J., & Bowling, M. (2013). The arcade learning environment: An evaluation platform for general agents. Journal of Artificial Intelligence Research, 47, 253-279.
- Brockman, G., Cheung, V., Pettersson, L., Schneider, J., Schulman, J., Tang, J., & Zaremba, W. (2016). OpenAI gym. arXiv preprint arXiv:1606.01540.
- Henderson, P., Islam, R., Bachman, P., Pineau, J., Precup, D., & Meger, D. (2018). Deep reinforcement learning that matters. In Proceedings of the AAAI Conference on Artificial Intelligence (Vol. 32, No. 1).