无法复现结果 #21

GeraintLi · 2024-01-15T09:36:44Z

作者你好，我使用你提供的代码进行训练，只不过受限于设备，我只能使用两张3090，batch_size_per_gpu设为4，结果训练后的效果很差。考虑到我的batchsize比原来设置的小，我将其跑了60万个iteration，但是效果依旧很差。我想问一下是因为我的batchsize太小才导致训练效果差的吗？

kkkls · 2024-01-15T09:49:21Z

你好，在batchsize较小的情况下，学习率也需要相应的调小，如果你训练完结果低很多的话(3个dB甚至以上)，可以尝试把学习率调小。其次使用较小的batchsize训练最终的结果会比用大的batchsize低一些这是正常的。希望可以帮到你

…

---原始邮件--- 发件人: ***@***.***> 发送时间: 2024年1月15日(周一) 下午5:36 收件人: ***@***.***>; 抄送: ***@***.***>; 主题: [kkkls/FFTformer] 无法复现结果 (Issue #21) 作者你好，我使用你提供的代码进行训练，只不过受限于设备，我只能使用两张3090，batch_size_per_gpu设为4，结果训练后的效果很差。考虑到我的batchsize比原来设置的小，我将其跑了60万个iteration，但是效果依旧很差。我想问一下是因为我的batchsize太小才导致训练效果差的吗？ — Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you are subscribed to this thread.Message ID: ***@***.***>

GeraintLi · 2024-01-16T07:14:34Z

请问一下，我可以通过梯度累加的技巧提高batchsize，从而不用调整学习率吗？

kkkls · 2024-01-16T08:19:32Z

是可以这样做的，但考虑到你只能使用两张3090的情况，我还是建议将学习率调小一点

GeraintLi · 2024-01-16T08:20:51Z

好的，谢谢您的建议，我尝试一下。

hfw6310 · 2024-01-21T13:15:53Z

作者您好请问一下我只有一张3090是不是这个work基本上没办法做了？感觉transformer好费卡

kkkls · 2024-01-21T13:35:02Z

作者您好请问一下我只有一张3090是不是这个work基本上没办法做了？感觉transformer好费卡

你好，目前如果想跑到sota的话还是需要较大的batchsize去训练的，资源有限的话可以做一些轻量化的工作

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

无法复现结果 #21

无法复现结果 #21

GeraintLi commented Jan 15, 2024

kkkls commented Jan 15, 2024 via email

GeraintLi commented Jan 16, 2024

kkkls commented Jan 16, 2024

GeraintLi commented Jan 16, 2024

hfw6310 commented Jan 21, 2024

kkkls commented Jan 21, 2024

无法复现结果 #21

无法复现结果 #21

Comments

GeraintLi commented Jan 15, 2024

kkkls commented Jan 15, 2024 via email

GeraintLi commented Jan 16, 2024

kkkls commented Jan 16, 2024

GeraintLi commented Jan 16, 2024

hfw6310 commented Jan 21, 2024

kkkls commented Jan 21, 2024