From 6a0ac8ac9219885c576aa0a8d6be2a0a9a7b4fee Mon Sep 17 00:00:00 2001 From: camera-2018 <2907618001@qq.com> Date: Wed, 26 Apr 2023 19:53:38 +0800 Subject: [PATCH] =?UTF-8?q?fix:=204.6.9.3.3=E4=B8=80=E5=BC=A0=E5=9B=BE?= =?UTF-8?q?=E7=89=87=E5=BC=95=E7=94=A8?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- ...4\254\346\246\202\345\277\265\344\273\213\347\273\215.md" | 5 ++--- 1 file changed, 2 insertions(+), 3 deletions(-) diff --git "a/4.\344\272\272\345\267\245\346\231\272\350\203\275/4.6.9.3\345\237\272\346\234\254\346\246\202\345\277\265\344\273\213\347\273\215.md" "b/4.\344\272\272\345\267\245\346\231\272\350\203\275/4.6.9.3\345\237\272\346\234\254\346\246\202\345\277\265\344\273\213\347\273\215.md" index cd6f8951..67552848 100644 --- "a/4.\344\272\272\345\267\245\346\231\272\350\203\275/4.6.9.3\345\237\272\346\234\254\346\246\202\345\277\265\344\273\213\347\273\215.md" +++ "b/4.\344\272\272\345\267\245\346\231\272\350\203\275/4.6.9.3\345\237\272\346\234\254\346\246\202\345\277\265\344\273\213\347\273\215.md" @@ -21,9 +21,8 @@ 4.动作(Action):智能体可以采取的行为,记为 $a$。在马里奥游戏中,马里奥能采取的动作只有:上、左、右三个。这属于**离散动作**,动作数量是有限的。而在机器人控制中,机器人能采取的动作是无限的,这属于**连续动作**。 5.策略(Policy):智能体采取动作的规则,分为**确定性策略**与**随机性策略**。确定性策略代表在相同的状态下,智能体所输出的动作是唯一的。而随机性策略哪怕是在相同的状态下,输出的动作也有可能不一样。这么说有点过于抽象了,那么请思考这个问题:在下面这张图的环境中,如果执行确定性策略会发生什么?(提示:着重关注两个灰色的格子) -
- -
+ +![](static/4.6.9.3.3.png) 因此,在强化学习中我们一般使用随机性策略。随机性策略通过引入一定的随机性,使环境能够被更好地探索。同时,如果策略固定——你的对手很容易能预测你的下一步动作并予以反击,这在博弈中是致命的。 随机性策略$\pi$定义如下: