update

applenob · applenob · commit 70eef77a6c3b · 2019-06-09T22:29:08.000+08:00
diff --git a/notes/intro_note_04.md b/notes/intro_note_04.md
@@ -9,19 +9,47 @@
 ## Policy Evaluation
 
 - **评估一个策略的好坏。**
-- 策略评估，**计算某个policy对应的价值函数**，也被称为prediction problem。
+- **策略评估**：**计算某个policy对应的价值函数**，也被称为prediction problem。
 - 更新方法：使用上一章讲的**Bellman Expectation Euqation for** $v_{\pi}$：$v_{\pi}(s) = \sum_a\pi(a|s)\sum_{s',r}p(s',r|s,a)[r+\gamma v_{\pi}(s')]\;\;\forall s \in S$
 
 ![iterative_policy_evaluation](../res/iterative_policy_evaluation.png)
 
+核心代码：
+
+```python
+src = new_state_values if in_place else state_values
+...
+value = 0
+for action in ACTIONS:
+    (next_i, next_j), reward = step([i, j], action)
+    value += ACTION_PROB * (reward + src[next_i, next_j])
+new_state_values[i, j] = value
+```
+
+其中，`step`函数即MDP的模型，会根据当前状态和动作产生下一个状态和奖励。
+
 ## Policy Improvement
 
 在当前的策略和相应的价值函数的基础上，使用价值函数贪婪地更新当前策略的过程。
 
-policy improvement theorem：对所有的$s \in S$，有$q_{\pi}(s, \pi'(s)) \geq v_{\pi}(s)$，则$v_{\pi'}\geq v_{\pi}(s)$，即策略$\pi'$优于策略$\pi$。
+**policy improvement theorem**：对所有的$s \in S$，有$q_{\pi}(s, \pi'(s)) \geq v_{\pi}(s)$，则$v_{\pi'}\geq v_{\pi}(s)$，即策略$\pi'$优于策略$\pi$。
 
 greedy policy：$\pi'(s)=\underset{a}{argmax}q_{\pi}(s,a)=\underset{a}{argmax}\sum_{s', r}p(s', r|s,a)[r+\gamma v_{\pi}(s')]$
 
+核心代码：
+
+```python
+policy = np.zeros(value.shape, dtype=np.int)
+...
+# policy improvement
+new_policy = np.copy(policy)
+for i in range(MAX_CARS + 1):
+    for j in range(MAX_CARS + 1):
+        action_returns = []
+        ...
+        new_policy[i, j] = actions[np.argmax(action_returns)]
+```
+
 ## Policy Iteration
 
 ![policy_iteration_2](../res/policy_iteration_2.png)
@@ -30,9 +58,18 @@ greedy policy：$\pi'(s)=\underset{a}{argmax}q_{\pi}(s,a)=\underset{a}{argmax}\s
 
 ![policy_iteration](../res/policy_iteration.png)
 
+核心代码：
+
+```python
+policy_change = (new_policy != policy).sum()
+if policy_change == 0:
+    ...
+    break
+```
+
 ## Value Iteration
 
-Policy Iteration的缺点：每一次迭代都要评估策略，而每一次策略评估本身都是一个迭代过程。
+Policy Iteration的缺点：每一次迭代都要评估策略，而**每一次策略评估本身都是一个迭代过程**。
 
 $v_{k+1}(s)=\underset{a}{max} E[R_{t+1}+\gamma v_k(S_{t+1})|S_t=s, A_t=a]$
 
@@ -42,4 +79,25 @@ $=\underset{a}{max}\sum_{s',r}p(s',r|s,a)[r+\gamma v_k(s')]$
 
 ![value_iteration](../res/value_iteration.png)
 
-Value Iteration简单地说就是每次评估价值的时候直接用可能的用最优价值函数更新价值函数（这样的每一步不涉及策略本身）；在确定已经获得比较准确的价值评估之后，再一次性确定策略。
+**Value Iteration**简单地说就是每次评估价值的时候直接用可能的用**最优价值函数更新价值函数**（这样的每一步不涉及策略本身）；在确定已经获得比较准确的价值评估之后，再一次性确定策略。
+
+核心代码：
+
+```python
+ # value iteration
+while True:
+    delta = 0.0
+    for state in STATES[1:GOAL]:
+        # get possilbe actions for current state
+        actions = np.arange(min(state, GOAL - state) + 1)
+        action_returns = []
+        for action in actions:
+            action_returns.append(
+                HEAD_PROB * state_value[state + action] + (1 - HEAD_PROB) * state_value[state - action])
+        new_value = np.max(action_returns)
+        delta += np.abs(state_value[state] - new_value)
+        # update state value
+        state_value[state] = new_value
+    if delta < 1e-9:
+        break
+```
diff --git a/notes/intro_note_05.md b/notes/intro_note_05.md
@@ -2,13 +2,17 @@
 
 ## 蒙特卡洛方法简介
 
-- 使用蒙特卡洛方法不需要像DP一样，对环境要有完整的知识，而是通过**经验**去学习。所谓经验就是对状态、动作、奖励的采样（sample sequence）。
-- 用sample的均值去近似期望。
-- 使用蒙特卡洛通常需要完整的episode，因此蒙特卡洛的更新方式更像是**episode-by-episode**，而不是像DP的step-by-step。
-- 优点：
-  - 1.可以从实际经验中学习；
-  - 2.可以从模拟的经验中学习；
-  - 3.可以直接从感兴趣的state开始采样episode。
+使用蒙特卡洛方法不需要像DP一样，对环境要有完整的知识，而是通过**经验**去学习。所谓经验就是对状态、动作、奖励的采样（sample sequence）。
+
+用sample的均值去近似期望。
+
+使用蒙特卡洛通常需要完整的**episode**，因此蒙特卡洛的更新方式更像是**episode-by-episode**，而不是像DP的**step-by-step**。
+
+优点：
+
+- 1.可以从实际经验中学习；
+- 2.可以从模拟的经验中学习；
+- 3.可以直接从感兴趣的state开始采样episode。
 
 ## 蒙特卡洛预测（评估）
 
@@ -20,11 +24,25 @@
 
 $V(s)\leftarrow average(Return(s))$
 
+核心代码：
+
+```python
+# Monte Carlo Sample with On-Policy
+def monte_carlo_on_policy(episodes):
+    ...
+    for i in range(0, episodes):
+        # play接受一个策略，然后模拟生成一个完整的轨迹和奖励
+        _, reward, player_trajectory = play(target_policy_player)
+        ...
+    # 返回价值函数的平均值
+    return states_usable_ace / states_usable_ace_count, states_no_usable_ace / states_no_usable_ace_count
+```
+
 ## 蒙特卡洛评估动作价值函数（Action Values）
 
 - **注意**：如果我们的问题中，没有对环境建模，那么单纯评估状态价值函数是不够的。我们必须要评估动作价值函数。
-- **主体思想**：从评估state到评估state-action对。
-- **可能存在的问题**：某些state-action对可能不会被访问（稀疏性问题）。
+- **主体思想**：从评估**state**到评估**state-action对**。
+- **可能存在的问题**：某些state-action对可能不会被访问（**稀疏性问题**）。
 
 ## 蒙特卡洛控制
 
@@ -36,7 +54,35 @@ $V(s)\leftarrow average(Return(s))$
 
 - **Exploring Starts**：所有的state-action对都有可能被选为episode的开始（start）。
 
-![](../res/mces.png)
+![mces](../res/mces.png)
+
+核心代码：
+
+```python
+# Monte Carlo with Exploring Starts
+def monte_carlo_es(episodes):
+    ...
+    # behavior policy is greedy
+    def behavior_policy(usable_ace, player_sum, dealer_card):
+        ...
+        # get argmax of the average returns(s, a)
+        values_ = state_action_values[player_sum, dealer_card, usable_ace, :] / \
+                  state_action_pair_count[player_sum, dealer_card, usable_ace, :]
+        return np.random.choice([action_ for action_, value_ in enumerate(values_) if value_ == np.max(values_)])
+
+    # play for several episodes
+    for episode in range(episodes):
+        # for each episode, use a randomly initialized state and action
+        initial_state = [bool(np.random.choice([0, 1])),
+                       np.random.choice(range(12, 22)),
+                       np.random.choice(range(1, 11))]
+        initial_action = np.random.choice(ACTIONS)
+        current_policy = behavior_policy if episode else target_policy_player
+        _, reward, trajectory = play(current_policy, initial_state, initial_action)
+        ...
+
+    return state_action_values / state_action_pair_count
+```
 
 ## 不使用Exploring Starts
 
@@ -47,7 +93,7 @@ $V(s)\leftarrow average(Return(s))$
 
 - on-policy只有**一套policy**，更简单，是首选。
 - off-policy使用**两套policy**，更复杂、更难收敛；但也更通用、更强大。
-- on-policy和off-policy本质依然是Exploit vs Explore的权衡。
+- on-policy和off-policy**本质**依然是**Exploit vs Explore**的权衡。
 
 ## on-policy
 
@@ -56,19 +102,19 @@ $V(s)\leftarrow average(Return(s))$
 ## off-policy
 
 - 所有的MC控制方法都面临一个**困境**：它们都想找到一个最优的策略，但却**必须采用非最优的策略去尽可能多地探索**（explore）数据。
-- 直接使用**两套策略**：采样用的policy称为`behavior policy`，最终的目标policy：`target policy`。这就是off-policy。
+- 直接使用**两套策略**：采样用的policy称为`behavior policy`，即**行为策略**；最终的目标policy：`target policy`，即**目标策略**。这就是off-policy。
 - 假设目标策略是$\pi$，行为策略是$b$，那么对于所有的$\pi(a|s)>0$必然有$b(a|s)>0$，这称为“覆盖”（coverage）。一个常见的例子是：行为策略使用价值函数的greedy policy，而目标策略使用ε-greedy policy。
 
 ## 重要性采样（importance sampling）
 
 几乎所有的off-policy都使用**重要性采样（importance sampling）**。
 
-为什么要使用重要性采样？我们希望在使用目标策略$\pi$的情况下用均值估计价值的期望，但我们获得的是在使用行为策略$b$的情况下的均值，也就是：$\mathbb{E}[G_t \mid S_t =s] = v_b(s)$。这二者是有差距的。因此我们希望使用重要性采样去纠正。
+**为什么要使用重要性采样**？我们希望在使用**目标策略**$\pi$的情况下用均值估计价值的期望，但我们获得的是在使用**行为策略**$b$的情况下的均值，也就是：$\mathbb{E}[G_t \mid S_t =s] = v_b(s)$。这二者是有差距的。因此我们希望**使用重要性采样去纠正**。
 
-给定初始状态$S_t$，后续的状态-动作轨迹在使用策略$\pi$的情况下的概率为：
+给定初始状态$S_t$，后续的状态-动作轨迹在使用目标策略$\pi$的情况下的概率为：
 $Pr\{At,S_{t+1}, A_{t+1}, ... S_T \mid S_t, A_{t:T −1} \sim \pi\}$ $=\prod_{k=t}^{T-1}\pi(A_k\mid S_k)p(S_{k+1}\mid S_k, A_k)$
 
-引入**重要性采样比例（the importancesampling ratio）**：
+引入**重要性采样比例（the importance sampling ratio）**：
 $\rho_{t:T −1}=\frac{\prod_{k=t}^{T-1}\pi(A_k\mid S_k)p(S_{k+1}\mid S_k, A_k)}{\prod_{k=t}^{T-1}b(A_k\mid S_k)p(S_{k+1}\mid S_k, A_k)}$ $=\prod_{k=t}^{T-1}\frac{\pi(A_k\mid S_k)}{b(A_k\mid S_k)}$
 上面这个式子正好巧妙地把MDP中未知的状态转移概率约掉。
 
@@ -94,3 +140,44 @@ odinary importance sampling vs. weighted importance sampling:
 控制：
 
 ![off_policy_mc_control](../res/off_policy_mc_control.png)
+
+核心代码：
+
+```python
+# Monte Carlo Sample with Off-Policy
+def monte_carlo_off_policy(episodes):
+    initial_state = [True, 13, 2]
+
+    rhos = []
+    returns = []
+
+    for i in range(0, episodes):
+        _, reward, player_trajectory = play(behavior_policy_player, initial_state=initial_state)
+
+        # get the importance ratio
+        numerator = 1.0
+        denominator = 1.0
+        for (usable_ace, player_sum, dealer_card), action in player_trajectory:
+            if action == target_policy_player(usable_ace, player_sum, dealer_card):
+                denominator *= 0.5
+            else:
+                numerator = 0.0
+                break
+        rho = numerator / denominator
+        rhos.append(rho)
+        returns.append(reward)
+
+    rhos = np.asarray(rhos)
+    returns = np.asarray(returns)
+    weighted_returns = rhos * returns
+
+    weighted_returns = np.add.accumulate(weighted_returns)
+    rhos = np.add.accumulate(rhos)
+
+    ordinary_sampling = weighted_returns / np.arange(1, episodes + 1)
+
+    with np.errstate(divide='ignore',invalid='ignore'):
+        weighted_sampling = np.where(rhos != 0, weighted_returns / rhos, 0)
+
+    return ordinary_sampling, weighted_sampling
+```
diff --git a/notes/intro_note_06.md b/notes/intro_note_06.md
@@ -4,8 +4,8 @@
 
 - 时序差分是强化学习的核心观点。
 - 时序差分是DP和MC方法的结合。
-- 时序差分不需要像MC一样，要等一个完整的序列结束；相反，每经历一步，都会更新价值函数。
-- TD往往比MC高效
+- MC**要等一个完整的序列结束**，比如玩21点扑克，直到玩完才能知道是胜是负；相反，时序差分**每经历一步，都会更新价值函数**，因为每一步都会观察到一个新的Reward，比如Grid World，每走一步都知道reward是什么。
+- TD往往比MC高效；TD和MC都使用**经验**（experience）来解决预测问题。
 - 所谓差分就是下一个时刻的估计和当前时刻的估计的差。
 
 ## 什么是stationary？
@@ -25,6 +25,21 @@ $V(S_t)\leftarrow V(S_t)+\alpha[R_{t+1}+\gamma V(S_{t+1})-V(S_t)]$
 
 ![td_0](../res/td_0.png)
 
+```python
+def temporal_difference(values, alpha=0.1, batch=False):
+    state = 3
+    trajectory = [state]
+    rewards = [0]
+    while True:
+        ...
+        # TD update
+        if not batch:
+            values[old_state] += alpha * (reward + values[state] - values[old_state])
+        ...
+        rewards.append(reward)
+    return trajectory, rewards
+```
+
 ## Sarsa
 
 - 一种on-policy的TD控制。
@@ -34,6 +49,16 @@ $V(S_t)\leftarrow V(S_t)+\alpha[R_{t+1}+\gamma V(S_{t+1})-V(S_t)]$
 
 ![](../res/sarsa_backup.png)
 
+核心代码：
+
+```python
+# Sarsa update
+q_value[state[0], state[1], action] += \
+    ALPHA * (REWARD + q_value[next_state[0], next_state[1], next_action] - q_value[state[0], state[1], action])
+state = next_state
+action = next_action
+```
+
 ## Q-learning
 
 - 一种off-policy的TD控制。
@@ -44,14 +69,32 @@ $V(S_t)\leftarrow V(S_t)+\alpha[R_{t+1}+\gamma V(S_{t+1})-V(S_t)]$
 
 ![q_learn_backup](../res/q_learn_backup.png)
 
+核心代码：
+
+```python
+def q_learning(q_value, step_size=ALPHA):
+    state = START
+    rewards = 0.0
+    while state != GOAL:
+        action = choose_action(state, q_value)
+        next_state, reward = step(state, action)
+        rewards += reward
+        # Q-Learning update
+        q_value[state[0], state[1], action] += step_size * (
+                reward + GAMMA * np.max(q_value[next_state[0], next_state[1], :]) -
+                q_value[state[0], state[1], action])
+        state = next_state
+    return rewards
+```
+
 ## Expected Sarsa
 
 - 一种off-policy的TD控制。
 - $Q(S_t,A_t)\leftarrow Q(S_t,A_t) + \alpha[R_{t+1} + \gamma\sum_a\pi(a|S_{t+1})Q(S_{t+1}, a)-Q(S_t,A_t)]$
 
 ## Double Learning
 
-- 解决Q-learning的**最大化偏差（maximization bias）**问题
+- 解决Q-learning的**最大化偏差**（maximization bias）问题
 - 2011年提出。
 
 ![double_q_learn](../res/double_q_learn.png)
diff --git a/notes/intro_note_07.md b/notes/intro_note_07.md