fix attn args (#9)

jinminxi104 · yao-fengchen · commit ea19f2076ea3 · 2024-08-22T08:13:25.000Z
diff --git a/lmdeploy/pytorch/kernels/ascend/paged_attention_fwd.py b/lmdeploy/pytorch/kernels/ascend/paged_attention_fwd.py
@@ -33,7 +33,7 @@ def flash_context_attention(
                 q_seq_len[i:i + 1],
                 num_q_heads,
                 num_kv_heads,
-                context.attention_mask[i:i + 1],
+                attn_mask=context.attention_mask[i:i + 1],
                 attn_output=attn_output,
             )
         else:
@@ -51,7 +51,7 @@ def flash_context_attention(
                 kv_seq_len[i:i + 1],
                 num_q_heads,
                 num_kv_heads,
-                context.attention_mask[i:i + 1],
+                attn_mask=context.attention_mask[i:i + 1],
                 attn_output=attn_output,
             )