【PaddlePaddle Hackathon】27、Paddle 分布式训练支持不均分数据输入

（此 ISSUE 为 PaddlePaddle Hackathon 活动的任务 ISSUE，更多详见[PaddlePaddle Hackathon](https://www.paddlepaddle.org.cn/PaddlePaddleHackathon)）

【任务说明】

- 任务标题：Paddle 分布式训练支持不均分数据输入

- 技术标签：分布式，C++，GPU，NCCL，图优化

- 任务难度：困难

- 详细描述：在GPU集合通信分布式训练模式下，若各卡上的输入数据不均等，会导致训练过程hang住的问题，即读取到数据的GPU卡发起集合通信操作（ncclAllReduce），但未读取到数据的GPU卡进程停掉，从而导致训练过程hang住。本任务的目的是探寻通用策略解决不均分输入数据条件下分布式训练过程hang住的问题，提高PaddlePaddle分布式训练框架的易用性。

【提交内容】

- 任务提案

- 任务 PR 到 [Paddle](https://github.com/PaddlePaddle/Paddle)

- 相关技术文档：包括调研报告、设计文档等

- 相关单测文件

【技术要求】

- 熟练掌握 C++ 、Python

- 熟练掌握GPU分布式训练原理和实现，了解并使用过NCCL等集合通信库

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

【PaddlePaddle Hackathon】27、Paddle 分布式训练支持不均分数据输入 #35980

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

【PaddlePaddle Hackathon】27、Paddle 分布式训练支持不均分数据输入 #35980

Description

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions