[transformer] support multi query attention && multi goruped #2403

Mddct · 2024-03-11T11:21:15Z

muitl query 可以减少cache占用，加快解码速度， llm中slm中会用到比如gemma等
并且根据paper https://github.com/wenet-e2e/wenet/pull/2363#issuecomment-1961189853，我们可以在multihead 训练的模型基础上，用MQA 继续训练

ASR上 https://github.com/wenet-e2e/wenet/pull/2363#issuecomment-1961189853，中显示确实可以和multihead 达到一致的性能

wenet/transformer/attention.py

…2e#2403) * [transformer] support multi query attention * fix dim * fix dim * fix comment and fix kv_head

Mddct added 3 commits March 11, 2024 19:20

[transformer] support multi query attention

d9653ff

fix dim

300627a

fix dim

6e9d5cb

Mddct requested review from xingchensong and robin1001 March 11, 2024 11:48

Mddct mentioned this pull request Mar 11, 2024

[WIP][transformer] bring llm component #2363

Open

9 tasks

xingchensong approved these changes Mar 11, 2024

View reviewed changes

wenet/transformer/attention.py Outdated Show resolved Hide resolved

xingchensong previously approved these changes Mar 11, 2024

View reviewed changes

wenet/transformer/attention.py Outdated Show resolved Hide resolved

xingchensong reviewed Mar 11, 2024

View reviewed changes

wenet/transformer/attention.py Show resolved Hide resolved

fix comment and fix kv_head

b6968ad

Mddct dismissed xingchensong’s stale review via b6968ad March 11, 2024 12:11

Mddct requested a review from xingchensong March 11, 2024 12:14

xingchensong approved these changes Mar 11, 2024

View reviewed changes

xingchensong merged commit 35e0a1c into main Mar 11, 2024
5 of 6 checks passed

xingchensong deleted the Mddct-mqa-mga branch March 11, 2024 13:01

srdfjy pushed a commit to srdfjy/wenet that referenced this pull request Oct 8, 2024

[transformer] support multi query attention && multi goruped (wenet-e…

b6b2a40

…2e#2403) * [transformer] support multi query attention * fix dim * fix dim * fix comment and fix kv_head

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[transformer] support multi query attention && multi goruped #2403

[transformer] support multi query attention && multi goruped #2403

Mddct commented Mar 11, 2024 •

edited

Loading

[transformer] support multi query attention && multi goruped #2403

[transformer] support multi query attention && multi goruped #2403

Conversation

Mddct commented Mar 11, 2024 • edited Loading

Mddct commented Mar 11, 2024 •

edited

Loading