Fused softmax kernel #3496

liujuncheng · 2020-08-19T10:12:35Z

No description provided.

yuanms2 · 2020-08-19T11:38:17Z

俊丞，这个优化起多大作用。什么场景会起作用。好像有的softmax和cross entropy loss 一起算，反向会得到简化

liujuncheng · 2020-08-19T12:11:39Z

俊丞，这个优化起多大作用。什么场景会起作用。好像有的softmax和cross entropy loss 一起算，反向会得到简化

https://github.com/Oneflow-Inc/OneFlow-Benchmark/blob/master/LanguageModeling/BERT/bert.py#L230 ，这是针对bert的优化，bert每一层会有一个softmax。在2080ti上测试kernel执行时间，单位us

	Fw FP32	Bw FP32	Fw FP16	Bw FP16
old	1325	1094	1110	789
new	676	412	590	355

在2080ti上测试bert base大概有1~2%吞吐率的提升，不过 @ShawnXuan 在V100测试优化效果没有2080ti明显，还需要进一步测试，不确定是不是V100更快的问题

Fused softmax kernel

bcfec47

liujuncheng requested review from guo-ran and leaves-zwx August 19, 2020 10:12

guo-ran approved these changes Aug 19, 2020

View reviewed changes

jackalcooper added this to the 0.1.9 milestone Aug 20, 2020

Merge branch 'master' into dev_fused_softmax_kernel

add3131

liujuncheng merged commit 2ec8fc6 into master Aug 20, 2020

liujuncheng deleted the dev_fused_softmax_kernel branch August 20, 2020 04:57

jackalcooper added the feature label Aug 20, 2020

Provide feedback