Skip to content

【PaddlePaddle Hackathon】27、Paddle 分布式训练支持不均分数据输入 #35980

@TCChenlong

Description

@TCChenlong

(此 ISSUE 为 PaddlePaddle Hackathon 活动的任务 ISSUE,更多详见PaddlePaddle Hackathon

【任务说明】

  • 任务标题:Paddle 分布式训练支持不均分数据输入

  • 技术标签:分布式,C++,GPU,NCCL,图优化

  • 任务难度:困难

  • 详细描述:在GPU集合通信分布式训练模式下,若各卡上的输入数据不均等,会导致训练过程hang住的问题,即读取到数据的GPU卡发起集合通信操作(ncclAllReduce),但未读取到数据的GPU卡进程停掉,从而导致训练过程hang住。本任务的目的是探寻通用策略解决不均分输入数据条件下分布式训练过程hang住的问题,提高PaddlePaddle分布式训练框架的易用性。

【提交内容】

  • 任务提案

  • 任务 PR 到 Paddle

  • 相关技术文档:包括调研报告、设计文档等

  • 相关单测文件

【技术要求】

  • 熟练掌握 C++ 、Python

  • 熟练掌握GPU分布式训练原理和实现,了解并使用过NCCL等集合通信库

Metadata

Metadata

Assignees

Type

No type

Projects

No projects

Milestone

No milestone

Relationships

None yet

Development

No branches or pull requests

Issue actions