add global dummy lists to avoid creating dummy list each time when executing prepare_input_tensors function

hlin99 · hlin99 · commit 557c96b3c25c · 2024-09-19T08:26:50.000Z
diff --git a/vllm/worker/habana_model_runner.py b/vllm/worker/habana_model_runner.py
@@ -488,6 +488,8 @@ class HabanaModelRunnerBase(ModelRunnerBase[TModelInputForHPU]):
     Helper class for shared methods between GPU model runners.
     """
     _model_input_cls: Type[TModelInputForHPU]
+    dummy_prompt_list: List[SequenceGroupMetadata]
+    dummy_decode_list: List[SequenceGroupMetadata]
 
     def __init__(
         self,
@@ -1087,9 +1089,16 @@ def prepare_input_tensors(
         batch_size_padded = find_bucket(real_batch_size, bucket_cfg)
         batch_size_padding = batch_size_padded - real_batch_size
         seq_group_metadata_list = seq_group_metadata_list.copy()
-        seq_group_metadata_list.extend(
-            self.create_dummy_seq_group_metadata(0, 0, is_prompt)
-            for _ in range(batch_size_padding))
+        
+        if is_prompt:
+            seq_group_metadata_list.extend(
+                self.dummy_prompt_list
+                for _ in range(batch_size_padding))
+        else:
+            seq_group_metadata_list.extend(
+                self.dummy_decode_list
+                for _ in range(batch_size_padding))
+
 
         prefill_reqs = []
         decode_reqs = []
@@ -1292,6 +1301,9 @@ def profile_run(self) -> None:
                           self.max_num_batched_tokens // max_batch_size)
 
         self.warmup_scenario(max_batch_size, max_seq_len, True, kv_caches)
+        self.dummy_prompt_list = self.create_dummy_seq_group_metadata(0, 0, 1)
+        self.dummy_decode_list = self.create_dummy_seq_group_metadata(0, 0, 0)
+
         return
 
     def warmup_scenario(self,