use rms_norm_eps for the L2Norm for Llama4 (huggingface#37418)

ArthurZucker · zucchini-nlp · commit 417e4371ed1b · 2025-05-14T18:43:26.000+02:00
use `rms_norm_eps`
diff --git a/src/transformers/models/llama4/modeling_llama4.py b/src/transformers/models/llama4/modeling_llama4.py
@@ -110,7 +110,7 @@ def forward(self, x):
 
 
 class Llama4TextL2Norm(torch.nn.Module):
-    def __init__(self, dim: int = None, eps: float = 1e-6):
+    def __init__(self, eps: float = 1e-6):
         super().__init__()
         self.eps = eps
 
@@ -301,7 +301,7 @@ def __init__(self, config: Llama4TextConfig, layer_idx):
             config.num_attention_heads * self.head_dim, config.hidden_size, bias=config.attention_bias
         )
         if self.config.use_qk_norm and self.use_rope:
-            self.qk_norm = Llama4TextL2Norm()
+            self.qk_norm = Llama4TextL2Norm(config.rms_norm_eps)
 
     def forward(
         self,