applenob
diff --git a/‎1_gridworld.ipynb‎
Lines changed: 3 additions & 3 deletions b/‎1_gridworld.ipynb‎
Lines changed: 3 additions & 3 deletions
diff --git a/‎README.md‎
Lines changed: 6 additions & 6 deletions b/‎README.md‎
Lines changed: 6 additions & 6 deletions
diff --git a/‎book/bookdraft2018.pdf‎
1.46 MB b/‎book/bookdraft2018.pdf‎
1.46 MB
diff --git a/‎learning_route.ipynb‎
Lines changed: 46 additions & 33 deletions b/‎learning_route.ipynb‎
Lines changed: 46 additions & 33 deletions
@@ -515,9 +515,9 @@
  "metadata": {
   "anaconda-cloud": {},
   "kernelspec": {
-   "display_name": "Python [conda env:py35]",
+   "display_name": "Python 3",
    "language": "python",
-   "name": "conda-env-py35-py"
+   "name": "python3"
   },
   "language_info": {
    "codemirror_mode": {
@@ -529,7 +529,7 @@
    "name": "python",
    "nbconvert_exporter": "python",
    "pygments_lexer": "ipython3",
-   "version": "3.5.4"
+   "version": "3.6.4"
   }
  },
  "nbformat": 4,
 
@@ -18,12 +18,12 @@
 
 所有的实验源代码都在`lib`目录下，来自[dennybritz](https://github.com/dennybritz/reinforcement-learning)，这里只做解读和归总。
 
-- [Gridworld](https://github.com/applenob/rl_learn/blob/master/1_gridworld.ipynb)：对应MDP的**Dynamic Programming**
-- [Blackjack](https://github.com/applenob/rl_learn/blob/master/2_blackjack.ipynb)：对应Model Free的**Monte Carlo**的Planning和Controlling
-- [Windy Gridworld](https://github.com/applenob/rl_learn/blob/master/3_windy_gridworld.ipynb)：对应Model Free的**Temporal Difference**的On-Policy Controlling，**SARSA**。
-- [Cliff Walking](https://github.com/applenob/rl_learn/blob/master/4_cliff_walking.ipynb)：对应Model Free的Temporal Difference的Off-Policy Controlling，Q-learning。
-- [Mountain Car](https://github.com/applenob/rl_learn/blob/master/5_mountain_car.ipynb)：对应Q表格很大无法处理（state空间连续）的Q-Learning with Linear Function Approximation。
-- [Atari](https://github.com/applenob/rl_learn/blob/master/6_atari.ipynb)：对应Deep-Q Learning。
+- [Gridworld](https://github.com/applenob/rl_learn/blob/master/1_gridworld.ipynb)：对应**MDP**的**Dynamic Programming**
+- [Blackjack](https://github.com/applenob/rl_learn/blob/master/2_blackjack.ipynb)：对应**Model Free**的**Monte Carlo**的Planning和Controlling
+- [Windy Gridworld](https://github.com/applenob/rl_learn/blob/master/3_windy_gridworld.ipynb)：对应**Model Free**的**Temporal Difference**的**On-Policy Controlling**，**SARSA**。
+- [Cliff Walking](https://github.com/applenob/rl_learn/blob/master/4_cliff_walking.ipynb)：对应**Model Free**的**Temporal Difference**的**Off-Policy Controlling**，**Q-learning**。
+- [Mountain Car](https://github.com/applenob/rl_learn/blob/master/5_mountain_car.ipynb)：对应Q表格很大无法处理（state空间连续）的**Q-Learning with Linear Function Approximation**。
+- [Atari](https://github.com/applenob/rl_learn/blob/master/6_atari.ipynb)：对应**Deep-Q Learning**。
 
 ## 其他重要学习资料：
 
 
@@ -12,44 +12,57 @@
     "\n",
     "- 1.了解强化学习的**特征**。也就是它区别于监督学习的地方，能解决什么类型的问题。\n",
     "- 2.了解强化学习的**常用解决方案**。针对不同的问题，解决方案主要分成两部分：\n",
-    "    - 第一部分是**表格类解决方案（Tabular Solution Method）**，针对的是离散的、简单的问题；\n",
-    "    - 第二部分是**近似解决方案（Approximate Solution Methods）**，针对的是连续的、复杂的问题。\n",
+    "    - 第一部分是**表格类解决方案（Tabular Solution Method）**，针对的是**离散的、简单的**问题；\n",
+    "    - 第二部分是**近似解决方案（Approximate Solution Methods）**，针对的是**连续的、复杂的**问题。\n",
     "\n",
     "\n",
     "## 具体一些\n",
     "\n",
-    "- 1.理解强化学习的几大要素：`policy`，`reward function`，`value function`，`modle (of the environment)`，分清`Reward`,`value function`和`q function`的区别。\n",
+    "### 1.理解强化学习的几大要素\n",
+    "`policy`，`reward function`，`value function`，`modle (of the environment)`，分清`Reward`,`value function`和`q function`的区别。\n",
     "\n",
-    "- 2.理解MDP的概念，MDP是对环境的一种建模，能覆盖绝大多数的强化学习问题。\n",
-    "    - `Bellman Expectation Equation`：$v_{\\pi}(s) = \\sum_a\\pi(a|s)\\sum_{s',r}p(s',r|s,a)[r+\\gamma v_{\\pi}(s')]\\;\\;\\forall s \\in S$\n",
-    "    - `Bellman Optimality Equation`：$v_*(s)=\\underset{a\\in A(s)}{max}\\sum_{s',r}p(s',r|s,a)[r+\\gamma v_*(s')]$和$q_*(s,a)=\\sum_{s',r}p(s',r|s,a)[r+\\gamma \\underset{a'}{max}q_*(s', a')]$\n",
-    "    - 二者本质上都是递推公式，其中蕴含的**“backup”**思路，给动态规划打下基础。\n",
+    "### 2.理解MDP的概念\n",
+    "MDP是对环境的一种建模，能覆盖绝大多数的强化学习问题。\n",
+    "- `Bellman Expectation Equation`：$v_{\\pi}(s) = \\sum_a\\pi(a|s)\\sum_{s',r}p(s',r|s,a)[r+\\gamma v_{\\pi}(s')]\\;\\;\\forall s \\in S$\n",
+    "- `Bellman Optimality Equation`：$v_*(s)=\\underset{a\\in A(s)}{max}\\sum_{s',r}p(s',r|s,a)[r+\\gamma v_*(s')]$和$q_*(s,a)=\\sum_{s',r}p(s',r|s,a)[r+\\gamma \\underset{a'}{max}q_*(s', a')]$\n",
+    "- 二者本质上都是递推公式，其中蕴含的**“backup”**思路，也就是从后一个状态的价值，逆推回前一个状态的价值。\n",
     "\n",
-    "- 3.有了MDP的概念，接下来考虑如何解决MDP的问题。\n",
-    "    - `planning`代表如何评估$v_{\\pi}$，\n",
-    "    - `controlling`代表如何根据评估，找到最优的策略$\\pi_*$。\n",
-    "        - `policy iteration`：每轮迭代先评估policy，获得新的$v$；再根据新的$v$，修改policy。$v_{\\pi}(s) = \\sum_a\\pi(a|s)\\sum_{s',r}p(s',r|s,a)[r+\\gamma v_{\\pi}(s')]\\;\\;\\forall s \\in S$\n",
-    "        - `value iteration`：每轮迭代直接寻找当轮最优的$v$，所有迭代完再找到对应的最优policy。$v_{k+1}(s)=\\underset{a}{max} E[R_{t+1}+\\gamma v_k(S_{t+1})|S_t=s, A_t=a]\\\\=\\underset{a}{max}\\sum_{s',r}p(s',r|s,a)[r+\\gamma v_k(s')]$\n",
+    "### 3.有了MDP的概念，接下来考虑如何解决MDP的问题。\n",
+    "解决MDP的问题的三种基本方法：\n",
+    "- 动态规划（Dynamic Programming）：理论上完美，但需要很强的算力和准确的环境model。\n",
+    "- 蒙特卡洛（Monte Carlo Methods）：不需要模型，可操作性强，但不太适合一步一步的增量计算。\n",
+    "- 差分学习（Temporal-Difference Learning）：不需要模型，也是增量式的，但分析起来很复杂。\n",
     "\n",
-    "- 4.接下来考虑model free，即没有状态转移概率。\n",
-    "    - `planning`：\n",
-    "        - `MC（Monte-Carlo）`：每次生成一条完整的episode，然后，对某个状态$s$计算平均$G$作为对$v$的估计。$V(s)\\leftarrow average(Return(s))$\n",
-    "        - `TD（Temporal Difference）`：每做一次决定，都可以更新$v$：$V(S)\\leftarrow V(S)+\\alpha[R+\\gamma V(S')-V(S)]$\n",
-    "    - `controlling`：\n",
-    "        - `On-Policy Monte-Carlo Control`：`MC planning`+`greedy policy`\n",
-    "        - `On-Policy Sarsa Control`：`TD planning`+`greedy policy`，但是更新从$v$变成了$q$，因此叫`SARSA`：$Q(S,A)\\leftarrow Q(S,A)+\\alpha[R+\\gamma Q(S',A')-Q(S,A)]$\n",
-    "        - Off-Policy：在生成episode的时候，直接使用一种较优的policy去指导它，而不是最终的`target policy`，指导的policy称为`behavior policy`。\n",
+    "三种基本方法之间又可以相互结合：\n",
+    "- 蒙特卡洛+差分学习，使用多步bootstrap。\n",
+    "- 差分学习+模型学习。\n",
+    "\n",
+    "- `planning`代表如何评估$v_{\\pi}$。\n",
+    "- `controlling`代表如何根据评估，找到最优的策略$\\pi_*$。\n",
+    "- `policy iteration`：每轮迭代先评估policy，获得新的$v$；再根据新的$v$，修改policy。\n",
+    "    - $v_{\\pi}(s) = \\sum_a\\pi(a|s)\\sum_{s',r}p(s',r|s,a)[r+\\gamma v_{\\pi}(s')]\\;\\;\\forall s \\in S$\n",
+    "- `value iteration`：每轮迭代直接寻找当轮最优的$v$，所有迭代完再找到对应的最优policy。\n",
+    "    - $v_{k+1}(s)=\\underset{a}{max} E[R_{t+1}+\\gamma v_k(S_{t+1})|S_t=s, A_t=a]\\\\=\\underset{a}{max}\\sum_{s',r}p(s',r|s,a)[r+\\gamma v_k(s')]$\n",
+    "\n",
+    "### 4.接下来考虑model free，即没有状态转移概率。\n",
+    "- `planning`：\n",
+    "    - `MC（Monte-Carlo）`：每次生成一条完整的episode，然后，对某个状态$s$计算平均$G$作为对$v$的估计。$V(s)\\leftarrow average(Return(s))$\n",
+    "    - `TD（Temporal Difference）`：每做一次决定，都可以更新$v$：$V(S)\\leftarrow V(S)+\\alpha[R+\\gamma V(S')-V(S)]$\n",
+    "- `controlling`：\n",
+    "    - `On-Policy Monte-Carlo Control`：`MC planning`+`greedy policy`\n",
+    "    - `On-Policy Sarsa Control`：`TD planning`+`greedy policy`，但是更新从$v$变成了$q$，因此叫`SARSA`：$Q(S,A)\\leftarrow Q(S,A)+\\alpha[R+\\gamma Q(S',A')-Q(S,A)]$\n",
+    "    - Off-Policy：在生成episode的时候，直接使用一种较优的policy去指导它，而不是最终的`target policy`，指导的policy称为`behavior policy`。\n",
     "        - `Off-Policy Monte-Carlo Control`：相比`On-Policy Monte-Carlo Control`y加入重要性采样。\n",
     "        - `Off-Policy Q-learning`：相比于`Sarsa`，$Q(S,A)\\leftarrow Q(S,A)+\\alpha[R+\\gamma Q(S',A')-Q(S, A)]$\n",
     "\n",
-    "- 5.近似函数：\n",
-    "    - 近似价值函数：目标$J(w) = E_{\\pi}[(v_{\\pi}(S)-\\hat v(S,w))^2]$，使近似的价值函数接近实际的价值函数。\n",
-    "        - `Q-Learning with Linear Function Approximation`\n",
-    "        - `Deep-Q Learning（DQN）`：使用了`Experience Replay`和`fixed Q-learning target`。\n",
-    "    - 拟合策略函数：目标$J_1(\\theta)=V^{\\pi_{\\theta}}(s_1) = E_{\\pi_{\\theta}}[v_1]$，使找到的策略函数可以使价值函数最大化。\n",
-    "        - `Monte-Carlo Policy Gradient (REINFORCE)`\n",
-    "    - 近似价值函数 + 拟合策略函数\n",
-    "        - ` Actor-Critic`：Critic：更新价值函数的参数$w$ 。Actor：更新策略的参数 $θ$ ，使用critic建议的方向。"
+    "### 5.近似函数：\n",
+    "- 近似价值函数：目标$J(w) = E_{\\pi}[(v_{\\pi}(S)-\\hat v(S,w))^2]$，使近似的价值函数接近实际的价值函数。\n",
+    "    - `Q-Learning with Linear Function Approximation`\n",
+    "    - `Deep-Q Learning（DQN）`：使用了`Experience Replay`和`fixed Q-learning target`。\n",
+    "- 拟合策略函数：目标$J_1(\\theta)=V^{\\pi_{\\theta}}(s_1) = E_{\\pi_{\\theta}}[v_1]$，使找到的策略函数可以使价值函数最大化。\n",
+    "    - `Monte-Carlo Policy Gradient (REINFORCE)`\n",
+    "- 近似价值函数 + 拟合策略函数\n",
+    "    - ` Actor-Critic`：Critic：更新价值函数的参数$w$ 。Actor：更新策略的参数 $θ$ ，使用critic建议的方向。"
    ]
   },
   {
@@ -64,21 +77,21 @@
  ],
  "metadata": {
   "kernelspec": {
-   "display_name": "Python 2",
+   "display_name": "Python 3",
    "language": "python",
-   "name": "python2"
+   "name": "python3"
   },
   "language_info": {
    "codemirror_mode": {
     "name": "ipython",
-    "version": 2
+    "version": 3
    },
    "file_extension": ".py",
    "mimetype": "text/x-python",
    "name": "python",
    "nbconvert_exporter": "python",
-   "pygments_lexer": "ipython2",
-   "version": "2.7.14"
+   "pygments_lexer": "ipython3",
+   "version": "3.6.4"
   }
  },
  "nbformat": 4,