Skip to content

关于使用50系显卡对应的torch导致内存爆炸的问题 #472

@Ethan-Miao

Description

@Ethan-Miao

您好,我在使用alphazero模型训练我自己设计的桌面类游戏时遇到了内存持续增长(1gb每分钟)且最终挤爆磁盘的现象。我使用了非常小的replaybufffer(2e3)后问题没有改进。我使用了memray采集了replay buffer满后的数据,发现内存持续增长的原因源于is_available at torch/cuda/init.py。
大模型给出的可能原因是PyTorch CUDA caching allocator 在吃 host 侧 pinned memory / 映射内存。
我的训练环境是wsl2+5070ti+96g内存。(可能是wsl2的问题?)
我在lightzero0.2.0的提供的五子棋文件中做了同样的replaybuffer的限制,结果同样是内存爆炸。
由于50系显卡要求sm120,我测试了torch支持的所有版本,均没有改善。
我想问一下lightzero是否有试过使用50系显卡训练,用的torch版本以及环境是什么?
附上我是用memray采集的内存占用:
Image

Metadata

Metadata

Assignees

No one assigned

    Labels

    bugSomething isn't working

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions