Open
Description
通过最后期的“对局结果”反向影响“前期落子”的走法得分,以逐步实现AI的自我强化训练
例如:棋盘大小固定S^2;初始化一个落子点走法的权重,均匀化,即第一步落在哪个点都可以,概率/落子权重/走法权重 相同
假设从第1步到第N步落子结束,算法主要目的就是预测当前第i步的走法,即当前第 i 步 应该落在哪个坐标,胜率最大;
假设局面评估/胜算计算的函数约定为 M 在 [0, 1] 之间,M的入参有(棋盘现状,评估函数,枚举出的走法)
我们可以将第i步落子的权重公式化表达为 (Px, Py) = F(i) = (Mi + (是否为输方 * -1 ) * ( (Mi+1~Mi+n)* 修正系数alpha) )
重点就是通过最后的结果,反向修正此前的走法权重,并且越早落下的步骤,修正系数越大,甚至可以用类乘,达到“尽早改过”的效果, 形成反向反馈,达到强化学习的目的;通过一次次的错误,反向修正自己的走法;
依此避免预测算法固化、死板、或者出现重复性的错误。
Metadata
Assignees
Labels
No labels
Activity