关于使用50系显卡对应的torch导致内存爆炸的问题

您好，我在使用alphazero模型训练我自己设计的桌面类游戏时遇到了内存持续增长（1gb每分钟）且最终挤爆磁盘的现象。我使用了非常小的replaybufffer（2e3）后问题没有改进。我使用了memray采集了replay buffer满后的数据，发现内存持续增长的原因源于is_available at torch/cuda/__init__.py。
大模型给出的可能原因是PyTorch CUDA caching allocator 在吃 host 侧 pinned memory / 映射内存。
我的训练环境是wsl2+5070ti+96g内存。（可能是wsl2的问题？）
我在lightzero0.2.0的提供的五子棋文件中做了同样的replaybuffer的限制，结果同样是内存爆炸。
由于50系显卡要求sm120，我测试了torch支持的所有版本，均没有改善。
我想问一下lightzero是否有试过使用50系显卡训练，用的torch版本以及环境是什么？
附上我是用memray采集的内存占用：
<img width="2048" height="831" alt="Image" src="https://github.com/user-attachments/assets/4a50c335-3724-45b3-9435-89a4cc294733" />

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

关于使用50系显卡对应的torch导致内存爆炸的问题 #472

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

关于使用50系显卡对应的torch导致内存爆炸的问题 #472

Description

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions