GitHub

几种分类

1、理解环境 model-based RL

q-learning deep q network

2、不理解环境 model-free RL

1、基于概率 policy gradients

2、基于价值 q learning 、 sarsa

1、回合更新 policy gradients

2、单步更新 q learing/sarsa 效率高

1、在线学习 sarsa

2、离线学习 q learning

基础知识

状态

（S，A，R，P，r）

S：状态

A：动作

R：奖励

P：策略

r：折现系数

π 策略

π ： S -> A

U：价值

Bellman equation 贝尔曼方程

Delta rule

同梯度下降策略当前状态:=当前状态 + a(理想-当前状态)

Temporal difference 时序差分

delta rule应用到bellman condition 寻找最优路径

U值rule学习

其中不需要state transitions，称为model-free learning

Q value

Active learning

添加探索exploration , 相对于exploitation

Q learning算法描述

Sarsa

在线学习：每次更新q表不用max，直接用q(next_A, next_S) ， next_A来自策略P下的next_S

Sarsa(λ)

每次更新q表λ步

DQN

Double-DQN

解决过大估计Q值的问题

与DQN的区别在于q_target的更新方式 PDF

Dueling-DQN

PDF

Prioritized Experience Replay

TD-ERROR=Q现实-Q预测，绝对值越大的样本被抽取出来训练的概率越大，加快了最优策略的学习。

Policy Gradients

基于行为的奖惩

Name		Name	Last commit message	Last commit date
Latest commit History 6 Commits
20170612221553966.jpg		20170612221553966.jpg
QQ图片20171210143138.png		QQ图片20171210143138.png
QQ图片20171210143327.png		QQ图片20171210143327.png
QQ图片20171210144551.png		QQ图片20171210144551.png
QQ图片20171210145505.png		QQ图片20171210145505.png
QQ图片20171210145649.png		QQ图片20171210145649.png
QQ图片20171210150204.png		QQ图片20171210150204.png
ddqn.PNG		ddqn.PNG
qlearning.py		qlearning.py
readme.md		readme.md
u=771899190,3095662949&fm=173&app=25&f=JPEG.jpg		u=771899190,3095662949&fm=173&app=25&f=JPEG.jpg

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

几种分类

基础知识

状态

π 策略