实现的是Policy Gradient最基本的REINFORCE方法
参考我的博客Policy Gradient算法实战
python 3.7.9
pytorch 1.6.0
tensorboard 2.3.0
torchvision 0.7.0
train:
python main.py
eval:
python main.py --train 0
tensorboard:
tensorboard --logdir logs
Name | Name | Last commit date | ||
---|---|---|---|---|
parent directory.. | ||||
实现的是Policy Gradient最基本的REINFORCE方法
参考我的博客Policy Gradient算法实战
python 3.7.9
pytorch 1.6.0
tensorboard 2.3.0
torchvision 0.7.0
train:
python main.py
eval:
python main.py --train 0
tensorboard:
tensorboard --logdir logs