Fixed scaled_int8_quant in qqq

vllm-project · simon-mo · Sep 16, 2024 · Jul 22, 2024 · Jul 23, 2024 · Jul 23, 2024
commit 2232b6dd8ced9aa850c394e29d32cbbd253fd79c
@@ -260,7 +260,7 @@ def apply(
         size_k = x_2d.shape[1]
         size_n = s_ch.shape[1]
 
-        x_int8, s_tok = ops.scaled_int8_quant(x_2d)
+        x_int8, s_tok, _ = ops.scaled_int8_quant(x_2d)
 
         output_2d = ops.marlin_qqq_gemm(x_int8, qweight, s_tok, s_ch, s_group,
                                         workspace, size_m, size_n, size_k)