Skip to content

AI 算法优化随想 #5

Open
Open
@jasonleaster

Description

通过最后期的“对局结果”反向影响“前期落子”的走法得分,以逐步实现AI的自我强化训练

例如:棋盘大小固定S^2;初始化一个落子点走法的权重,均匀化,即第一步落在哪个点都可以,概率/落子权重/走法权重 相同

假设从第1步到第N步落子结束,算法主要目的就是预测当前第i步的走法,即当前第 i 步 应该落在哪个坐标,胜率最大;

假设局面评估/胜算计算的函数约定为 M 在 [0, 1] 之间,M的入参有(棋盘现状,评估函数,枚举出的走法)

我们可以将第i步落子的权重公式化表达为 (Px, Py) = F(i) = (Mi + (是否为输方 * -1 ) * ( (Mi+1~Mi+n)* 修正系数alpha) )

重点就是通过最后的结果,反向修正此前的走法权重,并且越早落下的步骤,修正系数越大,甚至可以用类乘,达到“尽早改过”的效果, 形成反向反馈,达到强化学习的目的;通过一次次的错误,反向修正自己的走法;

依此避免预测算法固化、死板、或者出现重复性的错误。

Activity

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions