fix: Use correct GGUF metadata keys for softcapping

kitaekatt · kitaekatt · commit d86c30cea751 · 2025-12-16T08:54:03.000-06:00
The GGUF metadata stores softcapping as:
- gemma2.attn_logit_softcapping
- gemma2.final_logit_softcapping

After stripping the architecture prefix, the mapping keys should be
'attn_logit_softcapping' and 'final_logit_softcapping', not
'attention.logit_softcapping' which doesn't exist in GGUF metadata.

Also adds final_logit_softcapping mapping which was missing.

Signed-off-by: Christina &lt;truffle@gmail.com&gt;
diff --git a/src/transformers/integrations/ggml.py b/src/transformers/integrations/ggml.py
@@ -245,7 +245,8 @@
         "attention.head_count_kv": "num_key_value_heads",
         "attention.layer_norm_rms_epsilon": "rms_norm_eps",
         "attention.sliding_window": "sliding_window",
-        "attention.logit_softcapping": "attn_logit_softcapping",
+        "attn_logit_softcapping": "attn_logit_softcapping",
+        "final_logit_softcapping": "final_logit_softcapping",
         "vocab_size": "vocab_size",
     },
     "gemma3": {
@@ -262,7 +263,8 @@
         "attention.head_count_kv": "num_key_value_heads",
         "attention.layer_norm_rms_epsilon": "rms_norm_eps",
         "attention.sliding_window": "sliding_window",
-        "attention.logit_softcapping": "attn_logit_softcapping",
+        "attn_logit_softcapping": "attn_logit_softcapping",
+        "final_logit_softcapping": "final_logit_softcapping",
         "vocab_size": "vocab_size",
     },
     "umt5": {
diff --git a/tests/quantization/ggml/test_ggml.py b/tests/quantization/ggml/test_ggml.py
@@ -1045,20 +1045,24 @@ def test_deci_config_mapping(self):
         self.assertIsNone(deci_mapping["rope.dimension_count"])
 
     def test_gemma_softcap_config_mapping(self):
-        """Test that Gemma2/Gemma3 GGUF config mapping includes attn_logit_softcapping."""
+        """Test that Gemma2/Gemma3 GGUF config mapping includes softcapping parameters."""
         from transformers.integrations.ggml import GGUF_CONFIG_MAPPING
 
         # Test Gemma2
         self.assertIn("gemma2", GGUF_CONFIG_MAPPING)
         gemma2_mapping = GGUF_CONFIG_MAPPING["gemma2"]
-        self.assertIn("attention.logit_softcapping", gemma2_mapping)
-        self.assertEqual(gemma2_mapping["attention.logit_softcapping"], "attn_logit_softcapping")
+        self.assertIn("attn_logit_softcapping", gemma2_mapping)
+        self.assertEqual(gemma2_mapping["attn_logit_softcapping"], "attn_logit_softcapping")
+        self.assertIn("final_logit_softcapping", gemma2_mapping)
+        self.assertEqual(gemma2_mapping["final_logit_softcapping"], "final_logit_softcapping")
 
         # Test Gemma3
         self.assertIn("gemma3", GGUF_CONFIG_MAPPING)
         gemma3_mapping = GGUF_CONFIG_MAPPING["gemma3"]
-        self.assertIn("attention.logit_softcapping", gemma3_mapping)
-        self.assertEqual(gemma3_mapping["attention.logit_softcapping"], "attn_logit_softcapping")
+        self.assertIn("attn_logit_softcapping", gemma3_mapping)
+        self.assertEqual(gemma3_mapping["attn_logit_softcapping"], "attn_logit_softcapping")
+        self.assertIn("final_logit_softcapping", gemma3_mapping)
+        self.assertEqual(gemma3_mapping["final_logit_softcapping"], "final_logit_softcapping")
 
     def test_deci_architecture_mapping(self):
         """Test that Deci architectures are mapped to GGUFLlamaConverter."""