1、理解环境 model-based RL
q-learning deep q network
2、不理解环境 model-free RL
1、基于概率 policy gradients
2、基于价值 q learning 、 sarsa
1、回合更新 policy gradients
2、单步更新 q learing/sarsa 效率高
1、在线学习 sarsa
2、离线学习 q learning
(S,A,R,P,r)
S:状态
A:动作
R:奖励
P:策略
r:折现系数
π : S -> A
同梯度下降策略 当前状态:=当前状态 + a(理想-当前状态)
delta rule应用到bellman condition 寻找最优路径
U值rule学习
其中不需要state transitions,称为model-free learning
添加探索exploration , 相对于exploitation
在线学习:每次更新q表不用max,直接用q(next_A, next_S) , next_A来自策略P下的next_S
每次更新q表λ步
解决过大估计Q值的问题
与DQN的区别在于q_target的更新方式 PDF
TD-ERROR=Q现实-Q预测 ,绝对值越大的样本被抽取出来训练的概率越大,加快了最优策略的学习。
基于行为的奖惩