[deepseek_r1] reduce DMA transpose (#1404)

yangulei · xinyu-intel · web-flow · commit ae2dc1724b37 · 2025-06-11T16:08:54.000+08:00
Co-authored-by: Chen Xinyu &lt;xinyu1.chen@intel.com&gt;
diff --git a/vllm/attention/backends/mla/utils.py b/vllm/attention/backends/mla/utils.py
@@ -445,9 +445,9 @@ def get_scales(layer: LinearBase) -> torch.Tensor:
             self.tp_size = get_tensor_model_parallel_world_size()
         else:
             # Convert from (L, N, V) to (N, L, V)
-            self.W_UV = W_UV.transpose(0, 1)
+            self.W_UV = W_UV.transpose(0, 1).contiguous()
             # Convert from (L, N, P) to (N, P, L)
-            self.W_UK_T = W_UK.permute(1, 2, 0)
+            self.W_UK_T = W_UK.permute(1, 2, 0).contiguous()
 
     @abstractmethod
     def _forward_prefill(