Fixed chat serving init in async case

vllm-project · simon-mo · May 3, 2024 · Feb 2, 2024 · Feb 2, 2024 · Feb 2, 2024
commit 64060f3899714d25c6a4bd9dda6fdb3e7659fe10
@@ -0,0 +1,24 @@
+import asyncio
+
+import pytest
+
+from vllm.entrypoints.openai.serving_chat import OpenAIServingChat
+from vllm import AsyncEngineArgs
+from vllm.engine.async_llm_engine import AsyncLLMEngine
+
+MODEL_NAME = "HuggingFaceH4/zephyr-7b-beta"  # any model with a chat template should work here
+CHAT_TEMPLATE= "Dummy chat template for testing"
+
+
+async def _async_serving_chat_init():
+    engine_args = AsyncEngineArgs(model=MODEL_NAME)
+    engine = AsyncLLMEngine.from_engine_args(engine_args)
+    serving_completion = OpenAIServingChat(
+            engine, served_model=MODEL_NAME, response_role="assistant", chat_template=CHAT_TEMPLATE
+        )
+    return serving_completion
+
+def test_async_serving_chat_init():
+    serving_completion = asyncio.run(_async_serving_chat_init())
+    assert serving_completion.tokenizer is not None
+    assert serving_completion.tokenizer.chat_template==CHAT_TEMPLATE
@@ -53,7 +53,7 @@ def __del__(self):
             self.proc.terminate()
 
 
-@pytest.fixture(scope="session")
+@pytest.fixture(scope="module")
 def server():
     ray.init()
     server_runner = ServerRunner.remote([
@@ -70,7 +70,7 @@ def server():
     ray.shutdown()
 
 
-@pytest.fixture(scope="session")
+@pytest.fixture(scope="module")
 def client():
     client = openai.AsyncOpenAI(
         base_url="http://localhost:8000/v1",

diff --git a/vllm/entrypoints/openai/serving_chat.py b/vllm/entrypoints/openai/serving_chat.py
@@ -1,3 +1,4 @@
+import asyncio
 import time
 import codecs
 from fastapi import Request
@@ -25,7 +26,16 @@ def __init__(self,
                  chat_template=None):
         super().__init__(engine=engine, served_model=served_model)
         self.response_role = response_role
-        self._load_chat_template(chat_template)
+        try:
+            event_loop = asyncio.get_running_loop()
+        except RuntimeError:
+            event_loop = None
+
+        if event_loop is not None and event_loop.is_running(
+        ):  # If the current is instanced by Ray Serve, there is already a running event loop
+            event_loop.create_task(self._load_chat_template(chat_template))
+        else:  # When using single vLLM without engine_use_ray
+            asyncio.run(self._load_chat_template(chat_template))
 
     async def create_chat_completion(
         self, request: ChatCompletionRequest, raw_request: Request
@@ -242,7 +252,10 @@ async def chat_completion_full_generator(
 
         return response
 
-    def _load_chat_template(self, chat_template):
+    async def _load_chat_template(self, chat_template):
+        while self.tokenizer is None:
+            # Give the parent class time to laod the tokenizer
+            await asyncio.sleep(0.1)
         if chat_template is not None:
             try:
                 with open(chat_template, "r") as f: