gomokuAI_pytorch

This is a Python3 code of reinforcement-learning to play Noughts & Crosses.

これは強化学習でN目並べをプレイするpython3のコードです．

使用したアルゴリズムはDQNです．

環境

pytorch
tensorboardX

init.pyで各種パラメーターを設定します．

学習を始めるにはtrain.pyを動かします．
python trian.py

初期設定では50ゲームごとにモデルを比較し，新モデルが古いモデルよりも強かったら（勝率が55%を超えたら）モデルを更新するようにします．
モデルの場所はmodels/以下にあります．

三目並べでランダムプレイヤーとaiとの勝負でaiが後手のとき負けない割合が大体99%ぐらい

Name		Name	Last commit message	Last commit date
Latest commit History 179 Commits
__pycache__		__pycache__
models		models
tfbx2		tfbx2
.gitignore		.gitignore
.python-version		.python-version
README.md		README.md
brain.py		brain.py
environment.py		environment.py
general_func.py		general_func.py
init.py		init.py
model.py		model.py
replayMemory.py		replayMemory.py
train.py		train.py
train_mymodel_ver3_value_01_31_dqn6.py		train_mymodel_ver3_value_01_31_dqn6.py
win_rate.py		win_rate.py