[Spec Decode] Make EAGLE3 draft token ID mapping optional (vllm-project#18488)

benchislett · WoosukKwon · minpeter · commit 2ccd13acff00 · 2025-06-24T10:54:26.000+09:00
Signed-off-by: Benjamin Chislett &lt;benjamin.chislett@centml.ai&gt;
Co-authored-by: Woosuk Kwon &lt;woosuk.kwon@berkeley.edu&gt;
Signed-off-by: minpeter &lt;kali2005611@gmail.com&gt;
diff --git a/vllm/model_executor/models/llama_eagle3.py b/vllm/model_executor/models/llama_eagle3.py
@@ -214,6 +214,9 @@ def compute_logits(
     ) -> Optional[torch.Tensor]:
         logits = self.logits_processor(self.lm_head, hidden_states,
                                        sampling_metadata)
+        if self.draft_id_to_target_id is None:
+            return logits
+
         base = torch.arange(self.config.draft_vocab_size, device=logits.device)
         targets = base + self.draft_id_to_target_id
         logits_new = logits.new_full((
@@ -246,4 +249,9 @@ def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]):
                 name = "model." + name
             model_weights[name] = loaded_weight
 
-        return loader.load_weights(model_weights.items())
+        loaded_weights = loader.load_weights(model_weights.items())
+
+        if 'd2t' not in loaded_weights:
+            self.draft_id_to_target_id = None
+
+        return loaded_weights