[Bugfix] Add reset prefix cache for online serving (vllm-project#22726)

iAmir97 · iAmir97 · gemini-code-assist[bot] · amd-xiaoyu12 · commit d695d12f9d9e · 2025-08-28T15:53:31.000Z
Signed-off-by: iAmir97 &lt;Amir.balwel@embeddedllm.com&gt;
Signed-off-by: iAmir97 &lt;71513472+iAmir97@users.noreply.github.com&gt;
Co-authored-by: iAmir97 &lt;Amir.balwel@embeddedllm.com&gt;
Co-authored-by: gemini-code-assist[bot] &lt;176961590+gemini-code-assist[bot]@users.noreply.github.com&gt;
Signed-off-by: Xiao Yu &lt;xiao.yu@amd.com&gt;
diff --git a/vllm/engine/async_llm_engine.py b/vllm/engine/async_llm_engine.py
@@ -1092,6 +1092,7 @@ async def reset_prefix_cache(self,
         self.engine.reset_prefix_cache(device)
 
     async def sleep(self, level: int = 1) -> None:
+        await self.reset_prefix_cache()
         self.engine.sleep(level)
 
     async def wake_up(self, tags: Optional[list[str]] = None) -> None:
diff --git a/vllm/v1/engine/async_llm.py b/vllm/v1/engine/async_llm.py
@@ -576,6 +576,7 @@ async def reset_prefix_cache(self,
         await self.engine_core.reset_prefix_cache_async()
 
     async def sleep(self, level: int = 1) -> None:
+        await self.reset_prefix_cache()
         await self.engine_core.sleep_async(level)
 
     async def wake_up(self, tags: Optional[list[str]] = None) -> None: