-
Notifications
You must be signed in to change notification settings - Fork 185
Open
Labels
bugSomething isn't workingSomething isn't working
Description
您好,我在使用alphazero模型训练我自己设计的桌面类游戏时遇到了内存持续增长(1gb每分钟)且最终挤爆磁盘的现象。我使用了非常小的replaybufffer(2e3)后问题没有改进。我使用了memray采集了replay buffer满后的数据,发现内存持续增长的原因源于is_available at torch/cuda/init.py。
大模型给出的可能原因是PyTorch CUDA caching allocator 在吃 host 侧 pinned memory / 映射内存。
我的训练环境是wsl2+5070ti+96g内存。(可能是wsl2的问题?)
我在lightzero0.2.0的提供的五子棋文件中做了同样的replaybuffer的限制,结果同样是内存爆炸。
由于50系显卡要求sm120,我测试了torch支持的所有版本,均没有改善。
我想问一下lightzero是否有试过使用50系显卡训练,用的torch版本以及环境是什么?
附上我是用memray采集的内存占用:

Reactions are currently unavailable
Metadata
Metadata
Assignees
Labels
bugSomething isn't workingSomething isn't working