vllm-project · ptarasiewiczNV · Jun 12, 2025 · gemini-code-assist · Jun 12, 2025 · bnellnm
diff --git a/vllm/model_executor/layers/fused_moe/batched_deep_gemm_moe.py b/vllm/model_executor/layers/fused_moe/batched_deep_gemm_moe.py
@@ -120,6 +120,8 @@ def apply(
         a2q = a2q.view(E, max_num_tokens, -1)
         a2q_scale = a2q_scale.view(E, max_num_tokens, -1)
 
+        output = output.view(E, max_num_tokens, -1)
+
         dg.m_grouped_gemm_fp8_fp8_bf16_nt_masked((a2q, a2q_scale),
                                                  (w2, w2_scale),
                                                  out=output,

diff --git a/vllm/model_executor/layers/fused_moe/deepep_ll_prepare_finalize.py b/vllm/model_executor/layers/fused_moe/deepep_ll_prepare_finalize.py
@@ -174,6 +174,11 @@ def finalize(self, output: torch.Tensor, fused_expert_output: torch.Tensor,
             # weights have already been applied.
             combine_topk_weights = torch.ones_like(topk_weights)
 
+        _, _, num_max_dispatch_tokens_per_rank, _, num_experts = self.handle
+        fused_expert_output = fused_expert_output.view(
+            num_experts // self.buffer.group_size,
+            self.buffer.group_size * num_max_dispatch_tokens_per_rank, -1)
+
         # TODO (varun) : Enable zero copy mode
         _, event, hook = self.buffer.low_latency_combine(
             fused_expert_output,