Avoid calling input mapper in the first place

Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>
vllm-project · ywang96 · Dec 7, 2024 · Nov 26, 2024 · Nov 26, 2024 · Nov 26, 2024
commit b31f8d4d6e7b307c1f63ce1bf634c5b4dbd34258
@@ -23,10 +23,6 @@ def process_inputs(
         mm_data: MultiModalDataDict,
         mm_processor_kwargs: Optional[Dict[str, Any]],
     ) -> List[MultiModalKwargs]:
-        # Skip this redundant step if merged processor has been applied
-        if isinstance(mm_data, MultiModalKwargs):
-            return [mm_data]
-
         image_inputs = mm_data["image"]
         if not isinstance(image_inputs, list):
             image_inputs = [image_inputs]

@@ -7,7 +7,8 @@
 from vllm.inputs.parse import is_encoder_decoder_inputs
 from vllm.inputs.preprocess import InputPreprocessor
 from vllm.lora.request import LoRARequest
-from vllm.multimodal import MULTIMODAL_REGISTRY, MultiModalRegistry
+from vllm.multimodal import (MULTIMODAL_REGISTRY, MultiModalKwargs,
+                             MultiModalRegistry)
 from vllm.pooling_params import PoolingParams
 from vllm.prompt_adapter.request import PromptAdapterRequest
 from vllm.sampling_params import SamplingParams
@@ -101,10 +102,15 @@ def process_inputs(
             self.generation_config_fields, eos_token_id)
 
         # Preprocess multi-modal data
-        mm_inputs = self.mm_input_mapper.process_inputs(
-            decoder_inputs.multi_modal_data,
-            decoder_inputs.mm_processor_kwargs) if len(
-                decoder_inputs.multi_modal_data) > 0 else None
+        if len(decoder_inputs.multi_modal_data) == 0:
+            mm_inputs = None
+        elif isinstance(decoder_inputs.multi_modal_data, MultiModalKwargs):
+            mm_inputs = [decoder_inputs.multi_modal_data]
+        else:
+            mm_inputs = self.mm_input_mapper.process_inputs(
+                decoder_inputs.multi_modal_data,
+                decoder_inputs.mm_processor_kwargs,
+            )
 
         # Make Request for Detokenizer.
         detokenizer_request = DetokenizerRequest(