Modeling fix (quic#605)

mohiso22 · Mohit Soni · Abhishek kumar singh · commit b69bde512c11 · 2025-11-05T09:36:03.000Z
Signed-off-by: Mohit Soni &lt;mohisoni@qti.qualcom.com&gt;
Co-authored-by: Mohit Soni &lt;mohisoni@qti.qualcom.com&gt;
diff --git a/QEfficient/transformers/models/modeling_auto.py b/QEfficient/transformers/models/modeling_auto.py
@@ -1419,6 +1419,8 @@ def kv_offload_generate(
                 if x.startswith("past_") or x.endswith("_RetainedState")
             ]
         )
+        if not_mllama:
+            lang_session.skip_buffers(vision_outputs.keys())
 
         # Get first token
         lang_inputs["input_ids"] = outputs["logits"].argmax(2)
diff --git a/QEfficient/transformers/models/qwen2_5_vl/modeling_qwen2_5_vl.py b/QEfficient/transformers/models/qwen2_5_vl/modeling_qwen2_5_vl.py
@@ -953,6 +953,7 @@ def smart_resize(
         grid_height = grid_h * grid_w
         grid_width = patch_size * patch_size * temporal_patch_size * channel
         vision_size = grid_height // 4
+        vision_size = vision_size * num_frames
         grid_height = grid_height * batch_size
 
         vision = [

Original file line number	Diff line number	Diff line change
`@@ -1419,6 +1419,8 @@ def kv_offload_generate(`
`1419`	`1419`	`if x.startswith("past_") or x.endswith("_RetainedState")`
`1420`	`1420`	`]`
`1421`	`1421`	`)`
	`1422`	`+ if not_mllama:`
	`1423`	`+ lang_session.skip_buffers(vision_outputs.keys())`
`1422`	`1424`
`1423`	`1425`	`# Get first token`
`1424`	`1426`	`lang_inputs["input_ids"] = outputs["logits"].argmax(2)`