Merge pull request #140 from OpenPipe/potential_fix

saum7800 · web-flow · commit 48918e035b10 · 2025-05-23T14:17:50.000-07:00
Fix training stability issues with new vLLM version
diff --git a/pyproject.toml b/pyproject.toml
@@ -13,7 +13,7 @@ dependencies = [
     "torchao>=0.9.0",
     "unsloth==2025.5.1 ; sys_platform == 'linux'",
     "unsloth-zoo==2025.5.1 ; sys_platform == 'linux'",
-    "vllm==0.7.3",
+    "vllm>=0.8.5",
     "wandb>=0.19.8",
     "peft>=0.14.0",
     "typer>=0.15.2",
diff --git a/src/art/dev/model.py b/src/art/dev/model.py
@@ -43,6 +43,7 @@ def get_model_config(
         # which is the fallback for devices with compute capability < 8.0
         num_scheduler_steps=16 if torch.cuda.get_device_capability()[0] >= 8 else 1,
         enable_sleep_mode=enable_sleep_mode,
+        generation_config="vllm",
     )
     engine_args.update(config.get("engine_args", {}))
     init_args.update(config.get("init_args", {}))
diff --git a/src/art/dev/openai_server.py b/src/art/dev/openai_server.py
@@ -27,6 +27,7 @@ def get_openai_server_config(
         num_scheduler_steps=16,
         served_model_name=base_model,
         disable_log_requests=True,
+        generation_config="vllm",
     )
     engine_args.update(config.get("engine_args", {}))
     return OpenAIServerConfig(
diff --git a/src/art/local/vllm.py b/src/art/local/vllm.py
@@ -265,7 +265,7 @@ def patch_get_lora_tokenizer_async() -> None:
     Specifically, Unsloth patches get_lora_tokenizer_async with a non-async function, which causes issues.
     """
     import vllm.transformers_utils.tokenizer
-    import vllm.transformers_utils.tokenizer_group.tokenizer_group
+    import vllm.transformers_utils.tokenizer_group
 
     async def _return_nothing(*_, **__) -> None:
         return None
@@ -274,10 +274,10 @@ async def get_self_lora_tokenizer_async(self, *args, **kwargs):
         return self.tokenizer
 
     vllm.transformers_utils.tokenizer.get_lora_tokenizer_async = _return_nothing  # type: ignore
-    vllm.transformers_utils.tokenizer_group.tokenizer_group.get_lora_tokenizer_async = (
+    vllm.transformers_utils.tokenizer_group.get_lora_tokenizer_async = (
         _return_nothing  # type: ignore
     )
-    vllm.transformers_utils.tokenizer_group.tokenizer_group.TokenizerGroup.get_lora_tokenizer_async = get_self_lora_tokenizer_async  # type: ignore
+    vllm.transformers_utils.tokenizer_group.TokenizerGroup.get_lora_tokenizer_async = get_self_lora_tokenizer_async  # type: ignore
 
 
 def patch_listen_for_disconnect() -> None:

Original file line number	Diff line number	Diff line change
`@@ -43,6 +43,7 @@ def get_model_config(`
`43`	`43`	`# which is the fallback for devices with compute capability < 8.0`
`44`	`44`	`num_scheduler_steps=16 if torch.cuda.get_device_capability()[0] >= 8 else 1,`
`45`	`45`	`enable_sleep_mode=enable_sleep_mode,`
	`46`	`+ generation_config="vllm",`
`46`	`47`	`)`
`47`	`48`	`engine_args.update(config.get("engine_args", {}))`
`48`	`49`	`init_args.update(config.get("init_args", {}))`
Original file line number	Diff line number	Diff line change
`@@ -27,6 +27,7 @@ def get_openai_server_config(`
`27`	`27`	`num_scheduler_steps=16,`
`28`	`28`	`served_model_name=base_model,`
`29`	`29`	`disable_log_requests=True,`
	`30`	`+ generation_config="vllm",`
`30`	`31`	`)`
`31`	`32`	`engine_args.update(config.get("engine_args", {}))`
`32`	`33`	`return OpenAIServerConfig(`