Address comments

wizeng23 · wizeng23 · commit 916b9907cbdf · 2024-09-27T11:22:32.000-07:00
diff --git a/src/oumi/core/configs/params/model_params.py b/src/oumi/core/configs/params/model_params.py
@@ -196,3 +196,6 @@ def __validate__(self):
                 "Sharded-model evaluations with LM Harness should be invoked with "
                 "`python`, not `accelerate launch`."
             )
+
+        if self.model_max_length is not None and self.model_max_length <= 0:
+            raise ValueError("model_max_length must be a positive integer or None.")
diff --git a/src/oumi/core/types/turn.py b/src/oumi/core/types/turn.py
@@ -106,10 +106,13 @@ def is_text(self) -> bool:
         """Checks if the message contains text."""
         return self.type == Type.TEXT
 
-    def __repr__(self):
+    def __repr__(self) -> str:
         """Returns a string representation of the message."""
-        content = self.content if self.is_text() else "<non-text-content>"
-        return f"{self.role.upper()}: {content}"
+        id_str = ""
+        if self.id:
+            id_str = f"{self.id} - "
+        content = (self.content or "") if self.is_text() else f"<{self.type.upper() }>"
+        return f"{id_str}{self.role.upper()}: {content}"
 
 
 class Conversation(pydantic.BaseModel):
@@ -187,7 +190,7 @@ def filter_messages(self, role: Optional[Role] = None) -> List[Message]:
             messages = self.messages
         return messages
 
-    def __repr__(self):
+    def __repr__(self) -> str:
         """Returns a string representation of the conversation."""
         return "\n".join([repr(m) for m in self.messages])
 
diff --git a/src/oumi/inference/vllm_inference_engine.py b/src/oumi/inference/vllm_inference_engine.py
@@ -41,10 +41,11 @@ def __init__(
                 "vLLM is not installed. "
                 "Please install the GPU dependencies for this package."
             )
-        self.lora_request = None
+        self._lora_request = None
         if model_params.adapter_model:
-            self.lora_request = vllm.lora.request.LoRARequest(
-                lora_name="my_lora_adapter",
+            # ID should be unique for this adapter, but isn't enforced by vLLM.
+            self._lora_request = vllm.lora.request.LoRARequest(
+                lora_name="oumi_lora_adapter",
                 lora_int_id=1,
                 lora_path=model_params.adapter_model,
             )
@@ -61,7 +62,7 @@ def __init__(
             quantization=quantization,
             tensor_parallel_size=tensor_parallel_size,
             enable_prefix_caching=enable_prefix_caching,
-            enable_lora=self.lora_request is not None,
+            enable_lora=self._lora_request is not None,
             max_model_len=model_params.model_max_length,
         )
         # Ensure the tokenizer is set properly
@@ -111,7 +112,7 @@ def _infer(
             chat_response = self._llm.chat(
                 vllm_input,
                 sampling_params=sampling_params,
-                lora_request=self.lora_request,
+                lora_request=self._lora_request,
             )
             new_messages = [
                 Message(content=message.outputs[0].text, role=Role.ASSISTANT)

Original file line number	Diff line number	Diff line change
`@@ -196,3 +196,6 @@ def __validate__(self):`
`196`	`196`	`"Sharded-model evaluations with LM Harness should be invoked with "`
`197`	`197`	"`python`, not `accelerate launch`."
`198`	`198`	`)`
	`199`	`+`
	`200`	`+ if self.model_max_length is not None and self.model_max_length <= 0:`
	`201`	`+ raise ValueError("model_max_length must be a positive integer or None.")`