This is a Python3 code of reinforcement-learning to play Noughts & Crosses.
これは強化学習でN目並べをプレイするpython3のコードです.
使用したアルゴリズムはDQNです.
pytorch
tensorboardX
init.pyで各種パラメーターを設定します.
学習を始めるにはtrain.pyを動かします.
python trian.py
初期設定では50ゲームごとにモデルを比較し,新モデルが古いモデルよりも強かったら(勝率が55%を超えたら)モデルを更新するようにします.
モデルの場所はmodels/以下にあります.
三目並べでランダムプレイヤーとaiとの勝負でaiが後手のとき負けない割合が大体99%ぐらい