AI 算法优化随想

通过最后期的“对局结果”反向影响“前期落子”的走法得分，以逐步实现AI的自我强化训练

例如：棋盘大小固定S^2；初始化一个落子点走法的权重，均匀化，即第一步落在哪个点都可以，概率/落子权重/走法权重 相同

假设从第1步到第N步落子结束，算法主要目的就是预测当前第i步的走法，即当前第 i 步 应该落在哪个坐标，胜率最大；

假设局面评估/胜算计算的函数约定为 M 在 [0, 1] 之间，M的入参有（棋盘现状，评估函数，枚举出的走法）

我们可以将第i步落子的权重公式化表达为 (Px, Py) = F(i) = (Mi + (是否为输方 * -1 ) * ( (Mi+1～Mi+n）*  修正系数alpha) ）

**重点就是通过最后的结果，反向修正此前的走法权重，并且越早落下的步骤，修正系数越大，甚至可以用类乘，达到“尽早改过”的效果， 形成反向反馈，达到强化学习的目的；通过一次次的错误，反向修正自己的走法；**

依此避免预测算法固化、死板、或者出现重复性的错误。



Provide feedback

Saved searches

Use saved searches to filter your results more quickly

AI 算法优化随想 #5

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development