Skip to content

【PaddlePaddle Hackathon】24、在 Paddle 中实现基于 2D Torus 拓扑的 AllReduce #35986

@TCChenlong

Description

@TCChenlong

(此 ISSUE 为 PaddlePaddle Hackathon 活动的任务 ISSUE,更多详见PaddlePaddle Hackathon

【任务说明】

  • 任务标题:在 Paddle 中实现基于 2D Torus 拓扑的 AllReduce

  • 技术标签:深度学习框架,C++,通信拓扑

  • 任务难度:困难

  • 详细描述:2D Torus 主要思想是分层,先是在组内水平方向做 Scatter-Reduce 操作,然后在组间垂直方向做 AllReduce 操作, 最后在组内做 AllGather 操作。此任务的目标是在 Paddle 分布式训练框架中,实现 2D Torus 结构的 AllReduce,除使用 GPU 进行训练外,最好也能支持其他异构硬件。

【提交内容】

  • 任务提案

  • 任务 PR 到 Paddle

  • 相关技术文档

  • 任务单测文件

【技术要求】

  • 了解 Paddle 分布式训练框架

  • 熟练掌握 C++ 、Python

  • 熟悉模型训练和集合通信实现、2D Torus 通信算法

Metadata

Metadata

Assignees

Type

No type

Projects

No projects

Milestone

No milestone

Relationships

None yet

Development

No branches or pull requests

Issue actions