Open
Description
近期不断有一些 BUG 没有被立即发现,而是等到了后续测试模型的时候才发现,主要是因为 CI 当时没有测出这些 BUG 的问题。
这个 issue 列出需要加入 CI 的模型需求,跟踪进度并持续更新:
runnable 测试(不需要验证正确性)
测试的模型 | 备注 | 相关问题 | 负责人 | PR |
---|---|---|---|---|
BERT | Graph, 2/4卡 包含 Dropout |
TODO | TODO | |
BERT | Graph, 2/4卡 包含 GradAcc |
GradAcc #6254 |
TODO | TODO |
BERT | 老版Lazy, 多卡 包含 Dropout |
Device Id 设置问题 #6405 |
TODO | TODO |
BERT | 老版Lazy, 多卡 包含 GradAcc |
Reshape 处理问题 #6300 |
TODO | TODO |
GPT | Graph, 多机多卡(如2机8卡) 包含 2D sbp + GradAcc + Pipeline + Checkpointing |
TODO | TODO | |
GPT | 老版Lazy,多机多卡(如2机8卡) 包含 2D sbp + GradAcc + Pipeline + Checkpointing |
TODO | TODO | |
GPT | Graph, 多卡, 包含 Non-Distributed-Optimizer |
ZeRO 优化 跑通测试 | ||
InceptionV3 | Graph, 多卡 | 模型跑通测试 | 任天和 |