Fix

vllm-project · WoosukKwon · Jul 27, 2024 · Jun 24, 2024 · Jun 24, 2024 · Jun 24, 2024
commit 330be6e43d82abdd42797c12f58e532fc963a0fd
diff --git a/vllm/attention/backends/pallas.py b/vllm/attention/backends/pallas.py
@@ -28,6 +28,7 @@ def get_kv_cache_shape(
     ) -> Tuple[int, ...]:
         return (num_kv_heads, num_blocks, block_size, head_size)
 
+    @torch.compile(backend="openxla")
     @staticmethod
     def swap_blocks(
         src_kv_cache: Tuple[torch.Tensor, torch.Tensor],