fix judgment error

vllm-project · simon-mo · Feb 12, 2025 · Aug 1, 2024 · Aug 1, 2024 · Aug 2, 2024
commit 856532804685b47661708d352c4850979f047ee7
@@ -10,7 +10,7 @@
 from vllm.model_executor.layers.fused_moe.layer import (
    FusedMoE, FusedMoEMethodBase, FusedMoeWeightScaleSupported)
 from vllm.model_executor.layers.linear import (LinearBase, LinearMethodBase,
                                               set_weight_attrs, UnquantizedLinearMethod)
 from vllm.model_executor.layers.quantization.base_config import (
    QuantizationConfig)
 from vllm.model_executor.layers.quantization.kernels import (
@@ -73,10 +73,10 @@
        bits = self.weight_bits
        # check for variable/dynamic config
        if self.dynamic and len(self.dynamic) > 0 and prefix:
            bits = self.dynamic_get(prefix, "bits", bits)
            self.group_size = self.dynamic_get(prefix, "group_size", self.group_size)
            self.desc_act = self.dynamic_get(prefix, "desc_act", self.desc_act)
            self.is_sym = self.dynamic_get(prefix, "sym", self.is_sym)

        self.pack_factor = 32 // bits  # packed into int32
        if (bits, self.is_sym) not in self.TYPE_MAP:
@@ -141,7 +141,7 @@
                        " faster inference")
        return None

    def dynamic_get(self, layer_name: str, key: str = None, default_value: Union[int, bool] = None) -> Union[Dict, int, bool]:
        for pattern, pattern_dict in self.dynamic.items():
            if pattern.startswith("-:"):
                if re.match(pattern.removeprefix("-:"), layer_name):
@@ -156,12 +156,12 @@

     def get_quant_method(
             self, layer: torch.nn.Module, prefix: str
     ) -> Optional[Union["GPTQMarlinLinearMethod", "GPTQMarlinMoEMethod", UnquantizedLinearMethod]]:
-        if self.dynamic and self.dynamic_get(layer_name=prefix) == False:  # noqa: E712
-            return UnquantizedLinearMethod()
-
         if isinstance(layer, LinearBase) or (isinstance(layer, ParallelLMHead)
                                              and self.lm_head_quantized):
+            if self.dynamic and self.dynamic_get(layer_name=prefix) == False:  # noqa: E712
+                return UnquantizedLinearMethod()
+
             return GPTQMarlinLinearMethod(self, prefix=prefix)
         elif isinstance(layer, FusedMoE):
             return GPTQMarlinMoEMethod(self)