Enable prefix caching with full cuda graphs (vllm-project#19617)

WoosukKwon · yangw-dev · commit 290c4b4daa20 · 2025-06-24T16:44:02.000-07:00
Signed-off-by: Woosuk Kwon &lt;woosuk.kwon@berkeley.edu&gt;
Signed-off-by: Yang Wang &lt;elainewy@meta.com&gt;
diff --git a/vllm/config.py b/vllm/config.py
@@ -4495,7 +4495,6 @@ def __post_init__(self):
                 "full_cuda_graph is not supported with "
                 "cascade attention. Disabling cascade attention.")
             self.model_config.disable_cascade_attn = True
-            self.cache_config.enable_prefix_caching = False
 
         if (self.kv_events_config is not None
                 and self.kv_events_config.enable_kv_cache_events