Skip to content

Commit

Permalink
fix: 4.6.9.3.3一张图片引用
Browse files Browse the repository at this point in the history
  • Loading branch information
camera-2018 committed Apr 26, 2023
1 parent 4fa116b commit 6a0ac8a
Showing 1 changed file with 2 additions and 3 deletions.
5 changes: 2 additions & 3 deletions 4.人工智能/4.6.9.3基本概念介绍.md
Original file line number Diff line number Diff line change
Expand Up @@ -21,9 +21,8 @@
4.动作(Action):智能体可以采取的行为,记为 $a$。在马里奥游戏中,马里奥能采取的动作只有:上、左、右三个。这属于**离散动作**,动作数量是有限的。而在机器人控制中,机器人能采取的动作是无限的,这属于**连续动作**

5.策略(Policy):智能体采取动作的规则,分为**确定性策略****随机性策略**。确定性策略代表在相同的状态下,智能体所输出的动作是唯一的。而随机性策略哪怕是在相同的状态下,输出的动作也有可能不一样。这么说有点过于抽象了,那么请思考这个问题:在下面这张图的环境中,如果执行确定性策略会发生什么?(提示:着重关注两个灰色的格子)
<div style="text-align:center">
<img src="static/4.6.9.3.3.png" />
</div>

![](static/4.6.9.3.3.png)

因此,在强化学习中我们一般使用随机性策略。随机性策略通过引入一定的随机性,使环境能够被更好地探索。同时,如果策略固定——你的对手很容易能预测你的下一步动作并予以反击,这在博弈中是致命的。
随机性策略$\pi$定义如下:
Expand Down

0 comments on commit 6a0ac8a

Please sign in to comment.