[Bugfix][TPU] Use np array when updating cache slot_mapping (vllm-project#17971)

lsy323 · minpeter · commit c30aac4a7fab · 2025-06-24T10:54:21.000+09:00
Signed-off-by: Siyuan Liu &lt;lsiyuan@google.com&gt;
Signed-off-by: minpeter &lt;kali2005611@gmail.com&gt;
diff --git a/vllm/v1/worker/tpu_model_runner.py b/vllm/v1/worker/tpu_model_runner.py
@@ -531,7 +531,7 @@ def _prepare_inputs(self, scheduler_output: "SchedulerOutput"):
         np.add(block_numbers * self.block_size,
                block_offsets,
                out=self.input_batch.block_table.
-               slot_mapping_cpu[:total_num_scheduled_tokens])
+               slot_mapping_np[:total_num_scheduled_tokens])
 
         # Prepare the attention metadata.
         self.query_start_loc_np[0] = 0