Skip to content

强化学习专栏 focusing on 第一节 数据处理与分析, 第二节 推理部分, 第二节 未来展望, 第一节 边缘计算概述, 第二节 项目实战.

Notifications You must be signed in to change notification settings

chenxingqiang/Recent_Reinforcement_Learning_View

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

5 Commits
 
 
 
 

Repository files navigation

Recent Reinforcement Learning View

强化学习专栏

编外篇

第零周:数据科学,从计算到推理

第一部分 强化学习理论探索专题

第一节 理论和计算部分

  1. 第一周:强化学习基础概念
  2. 第二周:强化学习理论宗派
  3. 第三周:强化学习与监督学习
  4. 第四周:强化学习的实验环境
  5. 第五周:强化学习中的数学基础
  6. 第六周:强化学习中优化策略
  7. 第七周:强化学习中的实验环境构建

第二节 推理部分

  1. 第八周:强化学习基本算法
  2. 第九周:最优价值算法 Q-learning 和 DQN 算法
  3. 第十周:基于策略梯度的算法
  4. 第十一周:稀疏回报求解和 Model-based 算法
  5. 第十二周:反向强化学习算法

第二部分 强化学习应用场景专题

第一节 经典应用场景

  1. 第十三周:强化学习在 AlphaZero 中的应用
  2. 第十四周:强化学习与推荐检索系统
  3. 第十五周:强化学习与无人驾驶
  4. 第十六周:强化学习与对战游戏
  5. 第十七周:强化学习与路径规划和飞行控制
  6. 第十八周:强化学习与动态规划
  7. 第十九周:强化学习与量化交易
  8. 第二十周:强化学习与自然语言处理
  9. 第二十一周:强化学习在 AutoML 中的应用
  10. 第二十二周:强化学习与机器人控制

第二节 新兴应用场景

  1. 第二十三周:强化学习与智能医疗
  2. 第二十四周:强化学习与智能城市
  3. 第二十五周:强化学习与智能制造
  4. 第二十六周:强化学习与环境保护
  5. 第二十七周:强化学习与空间探索
  6. 第二十八周:强化学习与金融科技
  7. 第二十九周:强化学习与智能农业
  8. 第三十周:强化学习与网络安全

第三部分 强化学习编程实践专题

第一节 背景介绍与基础实践

  1. 第三十一周:What is Reinforcement Learning
  2. 第三十二周:OpenAI gym
  3. 第三十三周:OpenAI Gym API
  4. 第三十四周:DeepLearning with PyTorch
  5. 第三十五周:The Cross-Entropy Methods
  6. 第三十六周:Tabular Learning and the Bellman Equation
  7. 第三十七周:Deep Q-networks
  8. 第三十八周:DQN extensions
  9. 第三十九周:stocks trading using RL
  10. 第四十周:Policy Gradients: an alternative

第二节 深度应用与项目实践

  1. 第四十一周:The Actor-Critic Methods
  2. 第四十二周:Asynchronous Advantage Actor-Critic
  3. 第四十三周:Chatbot Training with RL
  4. 第四十四周:Web Navigation
  5. 第四十五周:Continuous Action Space
  6. 第四十六周:Trust regions--TRPO,PPO,and ACKTR
  7. 第四十七周:Black-box Optimization in RL
  8. 第四十八周:Beyond Model-Free -- Imagination
  9. 第四十九周:An on Atari Breakout
  10. 第五十周:AlphaGO Zero

第四部分 强化学习前沿论文专题

第一节 开创性研究

  1. 第五十一周:开山鼻祖 DQN 系列
  2. 第五十二周:基于策略梯度的深度强化学习
  3. 第五十三周:分层 Deep Reinforcement Learning
  4. 第五十四周:Deep Reinforcement Learning 多任务和迁移学习

第二节 最新进展与挑战

  1. 第五十五周:基于外部记忆模块的 Deep Reinforcement Learning
  2. 第五十六周:Deep Reinforcement Learning 中探索和利用问题
  3. 第五十七周:多 Agent Deep Reinforcement Learning 问题
  4. 第五十八周:逆向深度强化学习专题
  5. 第五十九周:探索和监督学习
  6. 第六十周:异步深度强化学习
  7. 第六十一周:强化学习与模仿学习

第五部分 强化学习与深度学习交叉领域探索综述专题

第一节 交叉研究综述

  1. 第六十二周:强化学习与 GCN 交叉研究综述
  2. 第六十三周:强化学习与 CNN 交叉研究综述
  3. 第六十四周:强化学习与 RNN 交叉研究综述
  4. 第六十五周:强化学习与 AutoML 交叉研究综述

第二节 实践与应用案例

  1. 第六十六周:强化学习与GAN交叉研究综述
  2. 第六十七周:强化学习与迁移学习热点综述
  3. 第六十八周:强化学习与模仿学习热点综述
  4. 第六十九周:反向强化学习热点综述
  5. 第七十周:强化学习未来发展方向综述

第六部分 强化学习在特定领域的应用探索

第一节 领域探索

  1. 第七十一周:强化学习在医疗领域的应用
  2. 第七十二周:强化学习在教育领域的应用
  3. 第七十三周:强化学习在能源管理中的应用
  4. 第七十四周:强化学习在交通管理中的应用
  5. 第七十五周:强化学习在客户服务中的应用
  6. 第七十六周:强化学习在物流与供应链管理中的应用

第二节 项目与案例分析

  1. 第七十七周:医疗领域中的强化学习案例分析
  2. 第七十八周:教育领域中的强化学习案例分析
  3. 第七十九周:能源管理中的强化学习案例分析
  4. 第八十周:交通管理中的强化学习案例分析
  5. 第八十一周:客户服务中的强化学习案例分析
  6. 第八十二周:物流与供应链管理中的强化学习案例分析

第七部分 强化学习编程实践专题进阶

第一节 深度学习与强化学习融合实践

  1. 第八十三周:深度 Q 网络(DQN)详解
  2. 第八十四周:DQN 的优化与扩展
  3. 第八十五周:基于策略梯度的方法
  4. 第八十六周:Actor-Critic 方法详解
  5. 第八十七周:基于 A3C 的并行计算

第二节 强化学习在现实世界中的应用

  1. 第八十八周:强化学习在自动驾驶中的应用
  2. 第八十九周:强化学习在智能交通中的应用
  3. 第九十周:强化学习在机器人控制中的应用
  4. 第九十一周:强化学习在智能制造中的应用
  5. 第九十二周:强化学习在金融科技中的应用

第八部分 强化学习的前沿研究与未来展望

第一节 前沿研究综述

  1. 第九十三周:深度强化学习中的探索策略
  2. 第九十四周:基于模型的强化学习
  3. 第九十五周:分层强化学习
  4. 第九十六周:多任务强化学习
  5. 第九十七周:迁移学习与强化学习的结合

第二节 未来展望

  1. 第九十八周:强化学习的伦理问题
  2. 第九十九周:强化学习与人类学习的对比
  3. 第一百周:强化学习与神经科学的联系
  4. 第一百零一周:强化学习的工业应用前景
  5. 第一百零二周:强化学习与人工智能的未来

第九部分 强化学习的应用工具与框架

第一节 工具与框架介绍

  1. 第一百零三周:强化学习工具箱
  2. 第一百零四周:OpenAI Gym 详解
  3. 第一百零五周:使用 PyTorch 进行强化学习
  4. 第一百零六周:使用 TensorFlow 进行强化学习

第二节 项目实战

  1. 第一百零七周:构建自己的强化学习环境
  2. 第一百零八周:强化学习项目实战
  3. 第一百零九周:强化学习在游戏中的应用
  4. 第一百一十周:强化学习在机器人控制中的应用

第十部分 强化学习与大数据的结合

第一节 数据处理与分析

  1. 第一百一十一周:大数据在强化学习中的应用
  2. 第一百一十二周:数据预处理与清洗
  3. 第一百一十三周:数据增强技术
  4. 第一百一十四周:数据分析与可视化

第二节 项目实战

  1. 第一百一十五周:强化学习与大数据的融合案例

  2. 第一百一十六周:数据驱动的强化学习项目

  3. 第一百一十七周:大数据环境下的强化学习优化

第十一部分 强化学习与边缘计算

第一节 边缘计算概述

  1. 第一百一十八周:边缘计算简介
  2. 第一百一十九周:边缘计算在强化学习中的应用

第二节 项目实战

  1. 第一百二十周:边缘设备上的强化学习项目

参考文献

  1. Sutton, R. S., & Barto, A. G. (2018). Reinforcement Learning: An Introduction. MIT Press.
  2. Mnih, V., Kavukcuoglu, K., Silver, D., Rusu, A. A., Veness, J., Bellemare, M. G., ... & Hassabis, D. (2015). Human-level control through deep reinforcement learning. Nature, 518(7540), 529-533.
  3. Silver, D., Huang, A., Maddison, C. J., Guez, A., Sifre, L., Van Den Driessche, G., ... & Hassabis, D. (2016). Mastering the game of Go with deep neural networks and tree search. Nature, 529(7587), 484-489.
  4. Lillicrap, T. P., Hunt, J. J., Pritzel, A., Heess, N., Erez, T., Tassa, Y., ... & Wierstra, D. (2016). Continuous control with deep reinforcement learning. arXiv preprint arXiv:1509.02971.
  5. Schulman, J., Wolski, F., Dhariwal, P., Radford, A., & Klimov, O. (2017). Proximal policy optimization algorithms. arXiv preprint arXiv:1707.06347.
  6. Levine, S., Pastor, P., Krizhevsky, A., Ibarz, J., & Quillen, D. (2018). Learning hand-eye coordination for robotic grasping with deep learning and large-scale data collection. The International Journal of Robotics Research, 37(4-5), 421-436.
  7. Van Hasselt, H., Guez, A., & Silver, D. (2016). Deep reinforcement learning with double Q-learning. In Proceedings of the AAAI Conference on Artificial Intelligence (Vol. 30, No. 1).
  8. Bellemare, M. G., Naddaf, Y., Veness, J., & Bowling, M. (2013). The arcade learning environment: An evaluation platform for general agents. Journal of Artificial Intelligence Research, 47, 253-279.
  9. Brockman, G., Cheung, V., Pettersson, L., Schneider, J., Schulman, J., Tang, J., & Zaremba, W. (2016). OpenAI gym. arXiv preprint arXiv:1606.01540.
  10. Henderson, P., Islam, R., Bachman, P., Pineau, J., Precup, D., & Meger, D. (2018). Deep reinforcement learning that matters. In Proceedings of the AAAI Conference on Artificial Intelligence (Vol. 32, No. 1).

About

强化学习专栏 focusing on 第一节 数据处理与分析, 第二节 推理部分, 第二节 未来展望, 第一节 边缘计算概述, 第二节 项目实战.

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published