[Core] Add shutdown() method to ExecutorBase (#4349)

njhill · web-flow · commit 15e7c675b0dc · 2024-04-25T16:32:48.000-07:00
diff --git a/vllm/engine/llm_engine.py b/vllm/engine/llm_engine.py
@@ -287,6 +287,12 @@ def __reduce__(self):
         # the closure used to initialize Ray worker actors
         raise RuntimeError("LLMEngine should not be pickled!")
 
+    def __del__(self):
+        # Shutdown model executor when engine is garbage collected
+        # Use getattr since __init__ can fail before the field is set
+        if model_executor := getattr(self, "model_executor", None):
+            model_executor.shutdown()
+
     def get_tokenizer(self) -> "PreTrainedTokenizer":
         return self.tokenizer.get_lora_tokenizer(None)
 
diff --git a/vllm/executor/executor_base.py b/vllm/executor/executor_base.py
@@ -95,6 +95,13 @@ def check_health(self) -> None:
         exception."""
         raise NotImplementedError
 
+    def shutdown(self) -> None:
+        """Shutdown the executor."""
+        return
+
+    def __del__(self):
+        self.shutdown()
+
 
 class ExecutorAsyncBase(ExecutorBase):