[Operator Mechanism]Align cuBLAS workspace size for SM10 GPUs#79373
[Operator Mechanism]Align cuBLAS workspace size for SM10 GPUs#79373feixi139 wants to merge 4 commits into
Conversation
CI报告基于以下代码生成(30分钟更新一次): 1 Required任务 : 46/48 通过
当前 required 任务无失败,仍有 2 个运行中、0 个等待中。
2 失败详情无 |
PaddlePaddle-bot
left a comment
There was a problem hiding this comment.
🤖 Paddle-CI-Agent | pr_review |
2026-06-25 22:07:14
📋 Review 摘要
PR 概述:调整 SM9/SM10 及后续 CUDA 架构的 cuBLAS/cuBLASLt workspace 下限,以影响 GEMM 算法选择并对齐 PyTorch 行为
变更范围:paddle/phi/backends/gpu/gpu_context.cc
影响面 Tag:[Operator Mechanism] [Performance Optimization]
问题
未发现阻塞性问题。PR 规范问题在下面章节报,不要在这里重复
📝 PR 规范检查
标题缺少 Tag 后的空格,且 PR 填写“是否引起精度变化”为“是”但未给出明确验证方式。建议替换为以下可复制内容。
标题建议(可直接复制):
[Operator Mechanism] Align cuBLAS workspace size for SM10 GPUs
PR 描述建议(点击展开,可直接复制)
### PR Category
<!-- One of [ User Experience | Execute Infrastructure | Operator Mechanism | CINN | Custom Device | Performance Optimization | Distributed Strategy | Parameter Server | Communication Library | Auto Parallel | Inference | Environment Adaptation ] -->
Operator Mechanism
### PR Types
<!-- One of [ New features | Bug fixes | Improvements | Performance | BC Breaking | Deprecations | Docs | Devs | Not User Facing | Security | Others ] -->
Bug fixes
### Description
<!-- Describe what you’ve done -->
调整 SM10 架构 GPU 上的 cuBLAS workspace size 设置,将其与 PyTorch 在 Hopper/Blackwell 架构上的行为对齐。
具体修改:
- 在 `gpu_context.cc` 中更新 `GetCublasWorkspaceSize` 逻辑;
- 对 SM9 和 SM10 架构使用 32MiB cuBLAS workspace;
- 其他架构保持原有约 8.125MiB workspace 设置不变。
影响范围:
- CUDA 非 Windows 路径下 `GPUContext` 初始化 cuBLAS handle workspace;
- 可能影响 Hopper/SM10 GPU 上 matmul 的 cuBLAS 算法选择与数值结果。
验证方式:
- N/A(当前 PR 描述未提供具体验证命令或精度对比数据)
### 是否引起精度变化
<!-- one of the following [ 是 | 否 ]-->
是。精度变化来源于 SM9/SM10 GPU 上 cuBLAS workspace size 从约 8.125MiB 调整为 32MiB 后,cuBLAS 可能选择不同 matmul 算法;影响范围为使用 cuBLAS GEMM/matmul 的 CUDA 非 Windows 路径;验证方式为 N/A(当前 PR 描述未提供具体验证命令或精度对比数据)。总体评价
本轮基于 PR diff、Paddle checklist/architecture 和 gpu_context.cc 相关调用链审查,未确认到需要阻塞的资源生命周期、设备 fallback 或整数溢出问题。PR 标题和精度变化验证说明仍沿用历史未解决的规范建议,请在合入前补齐.
Codecov Report❌ Patch coverage is
Additional details and impacted files@@ Coverage Diff @@
## develop #79373 +/- ##
==========================================
Coverage ? 60.00%
==========================================
Files ? 1
Lines ? 5
Branches ? 0
==========================================
Hits ? 3
Misses ? 2
Partials ? 0 ☔ View full report in Codecov by Harness. 🚀 New features to boost your workflow:
|
PR Category
Operator Mechanism
PR Types
Bug fixes
Description
调整 SM10 架构 GPU 上的 cuBLAS workspace size 设置,将其与 PyTorch 在 Hopper/Blackwell 架构上的行为对齐。
具体修改:
gpu_context.cc中更新GetCublasWorkspaceSize逻辑;该修改用于减少因 cuBLAS workspace size 不一致导致的算法选择差异,从而改善部分 matmul 场景下与 PyTorch
的数值对齐表现。
是否引起精度变化
是