Add CUBLAS Matmul BiasAdd Grad Kernel #8063

MARD1NO · 2022-04-20T07:33:30Z

No description provided.

liujuncheng · 2022-04-24T10:39:46Z

oneflow/user/kernels/cublas_fused_matmul_bias_add_grad.cu

+#include "oneflow/core/ep/include/primitive/memcpy.h"
+#include "oneflow/core/ep/cuda/cuda_device.h"
+// CUBLAS_AUX_EPILOGUE only support in cuda11.4 or higher version, in cuda11.4 it need static link.
+#if CUDA_VERSION >= 11040


https://docs.nvidia.com/cuda/cuda-toolkit-release-notes/index.html#cublas-11.4.2

已修改为11042

liujuncheng · 2022-04-24T10:40:10Z

oneflow/user/kernels/cublas_fused_matmul_bias_add_grad.cu

+#include "oneflow/user/kernels/cublas_fused_mlp_util.cuh"
+#include "oneflow/core/ep/include/primitive/memcpy.h"
+#include "oneflow/core/ep/cuda/cuda_device.h"
+// CUBLAS_AUX_EPILOGUE only support in cuda11.4 or higher version, in cuda11.4 it need static link.


Suggested change

// CUBLAS_AUX_EPILOGUE only support in cuda11.4 or higher version, in cuda11.4 it need static link.

// CUBLASLT_EPILOGUE_BGRADB only support in cuda11.4 or higher version, in cuda11.4 it need static link.

?

oneflow/user/ops/cublas_fused_mlp_op.cpp

github-actions · 2022-04-29T01:12:13Z

Speed stats:

github-actions · 2022-04-29T03:50:07Z

View latest API docs preview at: https://staging.oneflow.info/docs/Oneflow-Inc/oneflow/pr/8063/

github-actions · 2022-04-29T03:58:43Z

Speed stats:

GPU Name: NVIDIA GeForce GTX 1080 

❌ OneFlow resnet50 time: 129.3ms (= 12931.4ms / 100, input_shape=[16, 3, 224, 224])
PyTorch resnet50 time: 142.6ms (= 14258.4ms / 100, input_shape=[16, 3, 224, 224])
✔️ Relative speed: 1.10 (= 142.6ms / 129.3ms)

OneFlow resnet50 time: 83.7ms (= 8370.1ms / 100, input_shape=[8, 3, 224, 224])
PyTorch resnet50 time: 84.9ms (= 8489.5ms / 100, input_shape=[8, 3, 224, 224])
❌ Relative speed: 1.01 (= 84.9ms / 83.7ms)

OneFlow resnet50 time: 51.3ms (= 10264.5ms / 200, input_shape=[4, 3, 224, 224])
PyTorch resnet50 time: 58.9ms (= 11785.6ms / 200, input_shape=[4, 3, 224, 224])
✔️ Relative speed: 1.15 (= 58.9ms / 51.3ms)

OneFlow resnet50 time: 44.1ms (= 8810.0ms / 200, input_shape=[2, 3, 224, 224])
PyTorch resnet50 time: 50.3ms (= 10068.1ms / 200, input_shape=[2, 3, 224, 224])
✔️ Relative speed: 1.14 (= 50.3ms / 44.1ms)

OneFlow resnet50 time: 35.8ms (= 7168.8ms / 200, input_shape=[1, 3, 224, 224])
PyTorch resnet50 time: 37.8ms (= 7559.7ms / 200, input_shape=[1, 3, 224, 224])
✔️ Relative speed: 1.05 (= 37.8ms / 35.8ms)

OneFlow swin dataloader time: 0.255s (= 51.032s / 200, num_workers=1)
PyTorch swin dataloader time: 0.153s (= 30.605s / 200, num_workers=1)
Relative speed: 0.600 (= 0.153s / 0.255s)

OneFlow swin dataloader time: 0.068s (= 13.550s / 200, num_workers=4)
PyTorch swin dataloader time: 0.044s (= 8.700s / 200, num_workers=4)
Relative speed: 0.642 (= 0.044s / 0.068s)

OneFlow swin dataloader time: 0.035s (= 7.069s / 200, num_workers=8)
PyTorch swin dataloader time: 0.021s (= 4.282s / 200, num_workers=8)
Relative speed: 0.606 (= 0.021s / 0.035s)

❌ OneFlow resnet50 time: 145.2ms (= 14520.5ms / 100, input_shape=[16, 3, 224, 224], ddp, world size=2)
PyTorch resnet50 time: 169.4ms (= 16938.8ms / 100, input_shape=[16, 3, 224, 224], ddp, world size=2)
✔️ Relative speed: 1.17 (= 169.4ms / 145.2ms)

OneFlow resnet50 time: 96.2ms (= 9621.3ms / 100, input_shape=[8, 3, 224, 224], ddp, world size=2)
PyTorch resnet50 time: 109.0ms (= 10902.7ms / 100, input_shape=[8, 3, 224, 224], ddp, world size=2)
✔️ Relative speed: 1.13 (= 109.0ms / 96.2ms)

OneFlow resnet50 time: 75.8ms (= 15166.0ms / 200, input_shape=[4, 3, 224, 224], ddp, world size=2)
PyTorch resnet50 time: 88.7ms (= 17731.5ms / 200, input_shape=[4, 3, 224, 224], ddp, world size=2)
❌ Relative speed: 1.17 (= 88.7ms / 75.8ms)

OneFlow resnet50 time: 63.1ms (= 12610.0ms / 200, input_shape=[2, 3, 224, 224], ddp, world size=2)
PyTorch resnet50 time: 75.3ms (= 15068.2ms / 200, input_shape=[2, 3, 224, 224], ddp, world size=2)
✔️ Relative speed: 1.19 (= 75.3ms / 63.1ms)

OneFlow resnet50 time: 57.5ms (= 11502.3ms / 200, input_shape=[1, 3, 224, 224], ddp, world size=2)
PyTorch resnet50 time: 69.4ms (= 13881.9ms / 200, input_shape=[1, 3, 224, 224], ddp, world size=2)
✔️ Relative speed: 1.21 (= 69.4ms / 57.5ms)

github-actions · 2022-04-29T05:36:54Z

Speed stats:

GPU Name: NVIDIA GeForce GTX 1080 

❌ OneFlow resnet50 time: 129.2ms (= 12920.3ms / 100, input_shape=[16, 3, 224, 224])
PyTorch resnet50 time: 142.8ms (= 14284.8ms / 100, input_shape=[16, 3, 224, 224])
✔️ Relative speed: 1.11 (= 142.8ms / 129.2ms)

OneFlow resnet50 time: 80.1ms (= 8009.5ms / 100, input_shape=[8, 3, 224, 224])
PyTorch resnet50 time: 85.3ms (= 8528.6ms / 100, input_shape=[8, 3, 224, 224])
✔️ Relative speed: 1.06 (= 85.3ms / 80.1ms)

OneFlow resnet50 time: 50.4ms (= 10081.4ms / 200, input_shape=[4, 3, 224, 224])
PyTorch resnet50 time: 59.3ms (= 11862.5ms / 200, input_shape=[4, 3, 224, 224])
✔️ Relative speed: 1.18 (= 59.3ms / 50.4ms)

OneFlow resnet50 time: 41.3ms (= 8252.9ms / 200, input_shape=[2, 3, 224, 224])
PyTorch resnet50 time: 44.0ms (= 8802.1ms / 200, input_shape=[2, 3, 224, 224])
✔️ Relative speed: 1.07 (= 44.0ms / 41.3ms)

OneFlow resnet50 time: 38.9ms (= 7774.9ms / 200, input_shape=[1, 3, 224, 224])
PyTorch resnet50 time: 42.2ms (= 8443.6ms / 200, input_shape=[1, 3, 224, 224])
✔️ Relative speed: 1.09 (= 42.2ms / 38.9ms)

OneFlow swin dataloader time: 0.254s (= 50.713s / 200, num_workers=1)
PyTorch swin dataloader time: 0.149s (= 29.898s / 200, num_workers=1)
Relative speed: 0.590 (= 0.149s / 0.254s)

OneFlow swin dataloader time: 0.066s (= 13.253s / 200, num_workers=4)
PyTorch swin dataloader time: 0.042s (= 8.441s / 200, num_workers=4)
Relative speed: 0.637 (= 0.042s / 0.066s)

OneFlow swin dataloader time: 0.037s (= 7.456s / 200, num_workers=8)
PyTorch swin dataloader time: 0.022s (= 4.333s / 200, num_workers=8)
Relative speed: 0.581 (= 0.022s / 0.037s)

❌ OneFlow resnet50 time: 145.3ms (= 14530.2ms / 100, input_shape=[16, 3, 224, 224], ddp, world size=2)
PyTorch resnet50 time: 169.6ms (= 16961.1ms / 100, input_shape=[16, 3, 224, 224], ddp, world size=2)
✔️ Relative speed: 1.17 (= 169.6ms / 145.3ms)

OneFlow resnet50 time: 96.7ms (= 9671.6ms / 100, input_shape=[8, 3, 224, 224], ddp, world size=2)
PyTorch resnet50 time: 109.2ms (= 10915.7ms / 100, input_shape=[8, 3, 224, 224], ddp, world size=2)
✔️ Relative speed: 1.13 (= 109.2ms / 96.7ms)

OneFlow resnet50 time: 75.7ms (= 15145.7ms / 200, input_shape=[4, 3, 224, 224], ddp, world size=2)
PyTorch resnet50 time: 98.9ms (= 19770.2ms / 200, input_shape=[4, 3, 224, 224], ddp, world size=2)
✔️ Relative speed: 1.31 (= 98.9ms / 75.7ms)

OneFlow resnet50 time: 65.5ms (= 13095.5ms / 200, input_shape=[2, 3, 224, 224], ddp, world size=2)
PyTorch resnet50 time: 81.2ms (= 16241.7ms / 200, input_shape=[2, 3, 224, 224], ddp, world size=2)
✔️ Relative speed: 1.24 (= 81.2ms / 65.5ms)

OneFlow resnet50 time: 57.4ms (= 11479.7ms / 200, input_shape=[1, 3, 224, 224], ddp, world size=2)
PyTorch resnet50 time: 69.1ms (= 13829.7ms / 200, input_shape=[1, 3, 224, 224], ddp, world size=2)
✔️ Relative speed: 1.20 (= 69.1ms / 57.4ms)

add cublas matmul biasadd grad

29333ba

MARD1NO added WIP work in progress embedding labels Apr 20, 2022

MARD1NO added 5 commits April 21, 2022 10:03

fix bias gradient

6a1ff80

add batchsize=1 process

8dee520

still have bug

dfc50dc

fix illegal sbp

73bd0fa

add error msg

31f1f73

MARD1NO changed the title ~~Add CUBLAS Matmul BiasAdd Grad Kernel[WIP]~~ Add CUBLAS Matmul BiasAdd Grad Kernel Apr 22, 2022

MARD1NO marked this pull request as ready for review April 22, 2022 05:51

MARD1NO requested review from hjchen2, BBuf, jackalcooper, liujuncheng and guo-ran as code owners April 22, 2022 05:51

MARD1NO added enhancement op and removed WIP work in progress labels Apr 22, 2022

liujuncheng reviewed Apr 26, 2022

View reviewed changes

MARD1NO and others added 2 commits April 26, 2022 17:01

Merge branch 'master' into dev_cublas_bias_weight_grad

05295a9

fix jc comment

04d8d6e

liujuncheng approved these changes Apr 27, 2022

View reviewed changes

guo-ran reviewed Apr 27, 2022

View reviewed changes

oneflow/user/ops/cublas_fused_mlp_op.cpp Show resolved Hide resolved

guo-ran approved these changes Apr 27, 2022

View reviewed changes

Merge branch 'master' into dev_cublas_bias_weight_grad

320f86d

MARD1NO requested a review from oneflow-ci-bot April 28, 2022 00:09

MARD1NO added the automerge label Apr 28, 2022

mergify bot and others added 3 commits April 28, 2022 01:57

Merge branch 'master' into dev_cublas_bias_weight_grad

2a3139e

Merge branch 'master' into dev_cublas_bias_weight_grad

8430293

Merge branch 'master' into dev_cublas_bias_weight_grad

b2807b4

MARD1NO requested review from oneflow-ci-bot and removed request for oneflow-ci-bot April 28, 2022 09:20

mergify bot added 4 commits April 28, 2022 12:34

Merge branch 'master' into dev_cublas_bias_weight_grad

ed86519

Merge branch 'master' into dev_cublas_bias_weight_grad

15be911

Merge branch 'master' into dev_cublas_bias_weight_grad

5424205

Merge branch 'master' into dev_cublas_bias_weight_grad

788769e

Merge branch 'master' into dev_cublas_bias_weight_grad

0e20bb7

mergify bot merged commit baee1b0 into master Apr 29, 2022

mergify bot deleted the dev_cublas_bias_weight_grad branch April 29, 2022 06:13

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Add CUBLAS Matmul BiasAdd Grad Kernel #8063

Add CUBLAS Matmul BiasAdd Grad Kernel #8063

MARD1NO commented Apr 20, 2022

liujuncheng Apr 24, 2022

MARD1NO Apr 26, 2022

liujuncheng Apr 24, 2022

MARD1NO Apr 26, 2022

github-actions bot commented Apr 29, 2022

github-actions bot commented Apr 29, 2022

github-actions bot commented Apr 29, 2022

github-actions bot commented Apr 29, 2022

	// CUBLAS_AUX_EPILOGUE only support in cuda11.4 or higher version, in cuda11.4 it need static link.
	// CUBLASLT_EPILOGUE_BGRADB only support in cuda11.4 or higher version, in cuda11.4 it need static link.

Add CUBLAS Matmul BiasAdd Grad Kernel #8063

Add CUBLAS Matmul BiasAdd Grad Kernel #8063

Conversation

MARD1NO commented Apr 20, 2022

liujuncheng Apr 24, 2022

Choose a reason for hiding this comment

MARD1NO Apr 26, 2022

Choose a reason for hiding this comment

liujuncheng Apr 24, 2022

Choose a reason for hiding this comment

MARD1NO Apr 26, 2022

Choose a reason for hiding this comment

github-actions bot commented Apr 29, 2022

github-actions bot commented Apr 29, 2022

github-actions bot commented Apr 29, 2022

github-actions bot commented Apr 29, 2022