Fix mla prefill context performance (vllm-project#13897)

ZhongYingMatrix · DamonFool · commit 21fa74b5cb2c · 2025-03-07T08:59:04.000+08:00
Signed-off-by: ZhongYingMatrix &lt;zhongyingmatrix@gmail.com&gt;
diff --git a/vllm/attention/backends/mla/common.py b/vllm/attention/backends/mla/common.py
@@ -1308,7 +1308,7 @@ def _compute_prefill_context(
             )
 
             kv_c_normed = workspace[:toks]\
-                [..., :self.kv_lora_rank].unsqueeze(1)
+                [..., :self.kv_lora_rank]
             k_pe = workspace[:toks]\
                 [..., self.kv_lora_rank:].unsqueeze(1)
 
diff --git a/vllm/v1/attention/backends/mla/common.py b/vllm/v1/attention/backends/mla/common.py
@@ -874,7 +874,7 @@ def _compute_prefill_context(
             )
 
             kv_c_normed = workspace[:toks]\
-                [..., :self.kv_lora_rank].unsqueeze(1)
+                [..., :self.kv_lora_rank]
             k_pe = workspace[:toks]\
                 [..., self.kv_lora_rank:].unsqueeze(1)