From 6a0ac8ac9219885c576aa0a8d6be2a0a9a7b4fee Mon Sep 17 00:00:00 2001
From: camera-2018 <2907618001@qq.com>
Date: Wed, 26 Apr 2023 19:53:38 +0800
Subject: [PATCH] =?UTF-8?q?fix:=204.6.9.3.3=E4=B8=80=E5=BC=A0=E5=9B=BE?=
 =?UTF-8?q?=E7=89=87=E5=BC=95=E7=94=A8?=
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

---
 ...4\254\346\246\202\345\277\265\344\273\213\347\273\215.md" | 5 ++---
 1 file changed, 2 insertions(+), 3 deletions(-)
diff --git "a/4.\344\272\272\345\267\245\346\231\272\350\203\275/4.6.9.3\345\237\272\346\234\254\346\246\202\345\277\265\344\273\213\347\273\215.md" "b/4.\344\272\272\345\267\245\346\231\272\350\203\275/4.6.9.3\345\237\272\346\234\254\346\246\202\345\277\265\344\273\213\347\273\215.md"
index cd6f8951..67552848 100644
--- "a/4.\344\272\272\345\267\245\346\231\272\350\203\275/4.6.9.3\345\237\272\346\234\254\346\246\202\345\277\265\344\273\213\347\273\215.md"
+++ "b/4.\344\272\272\345\267\245\346\231\272\350\203\275/4.6.9.3\345\237\272\346\234\254\346\246\202\345\277\265\344\273\213\347\273\215.md"
@@ -21,9 +21,8 @@
 4.动作(Action):智能体可以采取的行为，记为 $a$。在马里奥游戏中，马里奥能采取的动作只有：上、左、右三个。这属于**离散动作**，动作数量是有限的。而在机器人控制中，机器人能采取的动作是无限的，这属于**连续动作**。
 
 5.策略(Policy):智能体采取动作的规则，分为**确定性策略**与**随机性策略**。确定性策略代表在相同的状态下，智能体所输出的动作是唯一的。而随机性策略哪怕是在相同的状态下，输出的动作也有可能不一样。这么说有点过于抽象了，那么请思考这个问题：在下面这张图的环境中，如果执行确定性策略会发生什么？(提示：着重关注两个灰色的格子)
-<div style="text-align:center">
-<img src="static/4.6.9.3.3.png" />
-</div>
+
+![](static/4.6.9.3.3.png)
 
 因此，在强化学习中我们一般使用随机性策略。随机性策略通过引入一定的随机性，使环境能够被更好地探索。同时，如果策略固定——你的对手很容易能预测你的下一步动作并予以反击，这在博弈中是致命的。
 随机性策略$\pi$定义如下：