We read every piece of feedback, and take your input very seriously.
To see all available qualifiers, see our documentation.
您好!这是非常振奋人心的一个工作! 我用这个项目在max_seq_length为200的情况下,能够正常在显存为45G的A40显卡上训练。 但是用我自己的数据集,将max_seq_length调整为1024时,开始能正常训练,但是显存占用会上涨,最终显存不够,出现cuda-out-of-memory的bug。 请问是什么问题导致训练过程中显存占用不稳定呢?