Minor

Signed-off-by: Woosuk Kwon <woosuk.kwon@berkeley.edu>
vllm-project · WoosukKwon · Jan 1, 2025 · Dec 30, 2024 · Dec 30, 2024 · Dec 31, 2024
commit 4faac41e4f61b1e3292b71c75d1fd5fad2ab4668
@@ -65,7 +65,7 @@ class FlashAttentionMetadata:
     block_table: torch.Tensor
     slot_mapping: torch.Tensor
 
-    # For cascade inference.
+    # For cascade attention.
     use_cascade: bool
     common_prefix_len: int
     cu_prefix_query_lens: Optional[torch.Tensor]

@@ -279,6 +279,8 @@ def get_num_common_prefix_blocks(
         blocks = self.req_to_blocks[request.request_id]
         num_common_blocks = 0
         for block in blocks:
+            # FIXME(woosuk): For some reason, sometimes the ref_cnt is greater
+            # than the number of running requests. DEBUG this.
             if block.ref_cnt >= num_requests:
                 num_common_blocks += 1
             else: