Modeling fix (quic#605)

mohiso22 · Mohit Soni · abhishek-singh591 · commit 242622159323 · 2025-11-25T10:07:33.000Z
Signed-off-by: Mohit Soni &lt;mohisoni@qti.qualcom.com&gt;
Co-authored-by: Mohit Soni &lt;mohisoni@qti.qualcom.com&gt;
Signed-off-by: abhishek-singh591 &lt;sabhis@qti.qualcomm.com&gt;
diff --git a/QEfficient/transformers/models/modeling_auto.py b/QEfficient/transformers/models/modeling_auto.py
@@ -1412,6 +1412,8 @@ def kv_offload_generate(
                 if x.startswith("past_") or x.endswith("_RetainedState")
             ]
         )
+        if not_mllama:
+            lang_session.skip_buffers(vision_outputs.keys())
 
         # Get first token
         lang_inputs["input_ids"] = outputs["logits"].argmax(2)
diff --git a/QEfficient/transformers/models/qwen2_5_vl/modeling_qwen2_5_vl.py b/QEfficient/transformers/models/qwen2_5_vl/modeling_qwen2_5_vl.py
@@ -953,6 +953,7 @@ def smart_resize(
         grid_height = grid_h * grid_w
         grid_width = patch_size * patch_size * temporal_patch_size * channel
         vision_size = grid_height // 4
+        vision_size = vision_size * num_frames
         grid_height = grid_height * batch_size
 
         vision = [

Original file line number	Diff line number	Diff line change
`@@ -1412,6 +1412,8 @@ def kv_offload_generate(`
`1412`	`1412`	`if x.startswith("past_") or x.endswith("_RetainedState")`
`1413`	`1413`	`]`
`1414`	`1414`	`)`
	`1415`	`+ if not_mllama:`
	`1416`	`+ lang_session.skip_buffers(vision_outputs.keys())`
`1415`	`1417`
`1416`	`1418`	`# Get first token`
`1417`	`1419`	`lang_inputs["input_ids"] = outputs["logits"].argmax(2)`