llama models fix

ahengljh · ahengljh · commit bddef4dbf92f · 2025-09-22T18:01:14.000+08:00
Signed-off-by: Jinheng Li &lt;ahengljh@gmail.com&gt;
diff --git a/vllm/model_executor/models/llama.py b/vllm/model_executor/models/llama.py
@@ -48,7 +48,7 @@
     DEFAULT_VOCAB_PADDING_SIZE, ParallelLMHead, VocabParallelEmbedding)
 from vllm.model_executor.model_loader.weight_utils import (
     default_weight_loader, maybe_remap_kv_scale_name)
-from vllm.platforms import current_platform
+from vllm.model_executor.sampling_metadata import SamplingMetadata
 from vllm.sequence import IntermediateTensors
 
 from .interfaces import SupportsEagle3, SupportsLoRA, SupportsPP
@@ -541,12 +541,7 @@ def __init__(self,
                 self.unpadded_vocab_size,
                 config.hidden_size,
                 org_num_embeddings=config.vocab_size,
-                padding_size=(
-                    DEFAULT_VOCAB_PADDING_SIZE
-                    # We need bigger padding if using lora for kernel
-                    # compatibility
-                    if not lora_config else
-                    current_platform.get_lora_vocab_padding_size()),
+                padding_size=DEFAULT_VOCAB_PADDING_SIZE,
                 quant_config=quant_config,
                 prefix=maybe_prefix(prefix, "lm_head"),
             )