DeepSpeed的PP需要相同的seq-length(collate时注意padding)和batchsize(将dataloader的`drop_last`设为True)

网上关于Deepspeed流水线并行的资料实在太少了...我遇到个问题需要请教一下，麻烦大佬有时间帮忙分析一下...
我仿照大佬的代码写了一个其他VLM的training code，在训练过程中会遇到一个奇怪的问题：
setting如下：num_stages=4, ngpus_per_node=8，那么pp=4，dp=2，然后rank0和rank1会分别有两个batch：B1和B2，假设B1和B2的序列长度分别为N1和N2。
然后在autograd时候就出错了，说的是Mismatch shape错误，grad的shape为N1，output的shape为N2，相当于autograd时候用了rank1的batch B1去更新rank2的batch B2了。

这个BUG或者问题我实在无从下手解决，也没搜集到相关资料。

P.S.: 我在LLM的BlockPipeLayer中打印了一下，发现B1的数据完整的forward了所有层，B2的数据只forward了前20多个层，后面的层还没传播完。是不是哪里的同步有问题啊？

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

DeepSpeed的PP需要相同的seq-length(collate时注意padding)和batchsize(将dataloader的`drop_last`设为True) #25

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

DeepSpeed的PP需要相同的seq-length(collate时注意padding)和batchsize(将dataloader的drop_last设为True) #25

Description

Metadata

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

Issue actions

DeepSpeed的PP需要相同的seq-length(collate时注意padding)和batchsize(将dataloader的`drop_last`设为True) #25