(此 ISSUE 为 PaddlePaddle Hackathon 活动的任务 ISSUE,更多详见PaddlePaddle Hackathon)
【任务说明】
-
任务标题:在 Paddle 中使用 CUDA Graph 加速训练
-
技术标签:深度学习框架,CUDA Graph
-
任务难度:困难
-
详细描述: CUDA Graph 可以通过预定义静态子图的方式加速 Kernel 调度,进而加速模型训练。独立的性能测试显示其对 Kernel 调度有显著加速。这个任务的目标是把 CUDA Graph 引入 Paddle,加速 Kernel 调度,进而加速模型训练。可以分为两个子目标:
(1) 定义并实现 CUDA Graph Python 层 api,用户可以使用 api 完成构建子图,执行子图,包含但不限于
- 子图构建 (capture 方式,或 sub-graph 方式)
- 子图执行
- 子图同步
(2) 将 CUDA Graph 已一定的方式可以在框架中自动的使用,框架自动的完成构建子图,执行子图。
【提交内容】
-
任务提案
-
任务 PR 到 Paddle
-
相关技术文档
-
任务单测文件
【技术要求】
-
熟练掌握 C++
-
了解 CUDA Graph 相关的技术背景