[Llama3] Fix: add pad token fallback and improve tensor reshaping (#3025)

LittleHeroZZZX · web-flow · commit 71268797c08a · 2025-11-26T21:36:48.000+08:00
diff --git a/paddleformers/cli/train/auto_parallel/workflow.py b/paddleformers/cli/train/auto_parallel/workflow.py
@@ -208,6 +208,8 @@ def run_auto_parallel(model_args, data_args, generating_args, training_args):
 
     config = config_class.from_pretrained(model_args.model_name_or_path)
     tokenizer = AutoTokenizer.from_pretrained(model_args.tokenizer_name_or_path)
+    if tokenizer.pad_token_id is None:
+        tokenizer.pad_token_id = tokenizer.eos_token_id
     # config = AutoConfig.from_pretrained(model_args.model_name_or_path)
     LlmMetaConfig.set_llm_config(config, training_args)
     config.use_fast_layer_norm = model_args.use_fast_layer_norm
diff --git a/paddleformers/cli/train/dpo/workflow.py b/paddleformers/cli/train/dpo/workflow.py
@@ -191,6 +191,8 @@ def run_dpo(
         tokenizer = AutoTokenizer.from_pretrained(model_args.tokenizer_name_or_path)
     else:
         tokenizer = AutoTokenizer.from_pretrained(model_args.model_name_or_path)
+    if tokenizer.pad_token_id is None:
+        tokenizer.pad_token_id = tokenizer.eos_token_id
 
     logger.info("Loading model & tokenizer successfully !")
 
diff --git a/paddleformers/cli/train/pretrain/workflow.py b/paddleformers/cli/train/pretrain/workflow.py
@@ -409,6 +409,8 @@ def run_dsv3_pretrain(model_args, data_args, generating_args, training_args):
             )
 
     tokenizer = AutoTokenizer.from_pretrained(model_args.tokenizer_name_or_path)
+    if tokenizer.pad_token_id is None:
+        tokenizer.pad_token_id = tokenizer.eos_token_id
     config = DeepseekV2FastConfig.from_pretrained(model_args.model_name_or_path)
 
     # set all llm config
diff --git a/paddleformers/cli/train/sft/workflow.py b/paddleformers/cli/train/sft/workflow.py
@@ -266,6 +266,8 @@ def neft_post_hook(module, input, output):
 
     # Load tokenizer & dataset
     tokenizer = AutoTokenizer.from_pretrained(model_args.model_name_or_path)
+    if tokenizer.pad_token_id is None:
+        tokenizer.pad_token_id = tokenizer.eos_token_id
 
     # if using chat_template, data_args.eval_with_do_generation must be false
     if tokenizer.chat_template is not None:
diff --git a/paddleformers/transformers/llama/modeling.py b/paddleformers/transformers/llama/modeling.py
@@ -159,9 +159,9 @@ def forward(
         q_shape = (batch_size, seq_len, self.num_heads, self.head_dim)
         kv_shape = (batch_size, seq_len, self.num_key_value_heads, self.head_dim)
 
-        query_states = self.q_proj(hidden_states).view(q_shape).transpose(1, 2)
-        key_states = self.k_proj(hidden_states).view(kv_shape).transpose(1, 2)
-        value_states = self.v_proj(hidden_states).view(kv_shape).transpose(1, 2)
+        query_states = self.q_proj(hidden_states).reshape(q_shape).transpose(1, 2)
+        key_states = self.k_proj(hidden_states).reshape(kv_shape).transpose(1, 2)
+        value_states = self.v_proj(hidden_states).reshape(kv_shape).transpose(1, 2)
 
         cos, sin = position_embeddings
         query_states, key_states = apply_rotary_pos_emb(query_states, key_states, cos, sin)
diff --git a/tests/transformers/llama/test_modeling.py b/tests/transformers/llama/test_modeling.py
@@ -439,6 +439,7 @@ def test_inference_no_attention(self):
             "Paddleformers/tiny-random-llama3",
             download_hub="aistudio",
             convert_from_hf=True,
+            dtype="float32",
         )
         model.eval()
         input_ids = paddle.to_tensor([[0, 345, 232, 328, 740, 140, 1695, 69, 6078, 1588, 2]])
@@ -452,9 +453,9 @@ def test_inference_no_attention(self):
         expected_slice = paddle.to_tensor(
             [
                 [
-                    [0.02366970, -0.42482421, 0.47202760],
-                    [-0.12180223, 0.00559035, 0.83846688],
-                    [0.45073321, 0.25703996, 1.36826384],
+                    [0.01802453, -0.42128855, 0.45844582],
+                    [-0.12787277, 0.00660499, 0.83033413],
+                    [0.44403678, 0.26123494, 1.36080980],
                 ]
             ],
             dtype=output.dtype,
@@ -467,6 +468,7 @@ def test_inference_with_attention(self):
             "Paddleformers/tiny-random-llama3",
             download_hub="aistudio",
             convert_from_hf=True,
+            dtype="float32",
         )
         model.eval()
         input_ids = paddle.to_tensor([[0, 345, 232, 328, 740, 140, 1695, 69, 6078, 1588, 2]])
@@ -479,9 +481,9 @@ def test_inference_with_attention(self):
         expected_slice = paddle.to_tensor(
             [
                 [
-                    [0.02366970, -0.42482421, 0.47202760],
-                    [-0.12180223, 0.00559035, 0.83846688],
-                    [0.45073321, 0.25703996, 1.36826384],
+                    [0.01802453, -0.42128855, 0.45844582],
+                    [-0.12787277, 0.00660499, 0.83033413],
+                    [0.44403678, 0.26123494, 1.36080980],
                 ]
             ],
             dtype=output.dtype,
diff --git a/tests/transformers/test_shard_checkpoint.py b/tests/transformers/test_shard_checkpoint.py
@@ -81,7 +81,7 @@ def test_from_pretrained_low_cpu_mem_usage_functional(self):
                 convert_from_hf=convert,
             )
             for p1, p2 in zip(m1.parameters(), m2.parameters()):
-                self.assertTrue(paddle.allclose(p1, p2))
+                self.assertTrue(paddle.allclose(p1.float(), p2.float()))
 
     @unittest.skipIf(not is_paddle_cuda_available(), "some op is missing in cpu mode")
     def test_keep_in_fp32_modules(self):

Original file line number	Diff line number	Diff line change
`@@ -409,6 +409,8 @@ def run_dsv3_pretrain(model_args, data_args, generating_args, training_args):`
`409`	`409`	`)`
`410`	`410`
`411`	`411`	`tokenizer = AutoTokenizer.from_pretrained(model_args.tokenizer_name_or_path)`
	`412`	`+ if tokenizer.pad_token_id is None:`
	`413`	`+ tokenizer.pad_token_id = tokenizer.eos_token_id`
`412`	`414`	`config = DeepseekV2FastConfig.from_pretrained(model_args.model_name_or_path)`
`413`	`415`
`414`	`416`	`# set all llm config`
Original file line number	Diff line number	Diff line change
`@@ -439,6 +439,7 @@ def test_inference_no_attention(self):`
`439`	`439`	`"Paddleformers/tiny-random-llama3",`
`440`	`440`	`download_hub="aistudio",`
`441`	`441`	`convert_from_hf=True,`
	`442`	`+ dtype="float32",`
`442`	`443`	`)`
`443`	`444`	`model.eval()`
`444`	`445`	`input_ids = paddle.to_tensor([[0, 345, 232, 328, 740, 140, 1695, 69, 6078, 1588, 2]])`
`@@ -452,9 +453,9 @@ def test_inference_no_attention(self):`
`452`	`453`	`expected_slice = paddle.to_tensor(`
`453`	`454`	`[`
`454`	`455`	`[`
`455`		`- [0.02366970, -0.42482421, 0.47202760],`
`456`		`- [-0.12180223, 0.00559035, 0.83846688],`
`457`		`- [0.45073321, 0.25703996, 1.36826384],`
	`456`	`+ [0.01802453, -0.42128855, 0.45844582],`
	`457`	`+ [-0.12787277, 0.00660499, 0.83033413],`
	`458`	`+ [0.44403678, 0.26123494, 1.36080980],`
`458`	`459`	`]`
`459`	`460`	`],`
`460`	`461`	`dtype=output.dtype,`
`@@ -467,6 +468,7 @@ def test_inference_with_attention(self):`
`467`	`468`	`"Paddleformers/tiny-random-llama3",`
`468`	`469`	`download_hub="aistudio",`
`469`	`470`	`convert_from_hf=True,`
	`471`	`+ dtype="float32",`
`470`	`472`	`)`
`471`	`473`	`model.eval()`
`472`	`474`	`input_ids = paddle.to_tensor([[0, 345, 232, 328, 740, 140, 1695, 69, 6078, 1588, 2]])`
`@@ -479,9 +481,9 @@ def test_inference_with_attention(self):`
`479`	`481`	`expected_slice = paddle.to_tensor(`
`480`	`482`	`[`
`481`	`483`	`[`
`482`		`- [0.02366970, -0.42482421, 0.47202760],`
`483`		`- [-0.12180223, 0.00559035, 0.83846688],`
`484`		`- [0.45073321, 0.25703996, 1.36826384],`
	`484`	`+ [0.01802453, -0.42128855, 0.45844582],`
	`485`	`+ [-0.12787277, 0.00660499, 0.83033413],`
	`486`	`+ [0.44403678, 0.26123494, 1.36080980],`
`485`	`487`	`]`
`486`	`488`	`],`
`487`	`489`	`dtype=output.dtype,`
Original file line number	Diff line number	Diff line change
`@@ -81,7 +81,7 @@ def test_from_pretrained_low_cpu_mem_usage_functional(self):`
`81`	`81`	`convert_from_hf=convert,`
`82`	`82`	`)`
`83`	`83`	`for p1, p2 in zip(m1.parameters(), m2.parameters()):`
`84`		`- self.assertTrue(paddle.allclose(p1, p2))`
	`84`	`+ self.assertTrue(paddle.allclose(p1.float(), p2.float()))`
`85`	`85`
`86`	`86`	`@unittest.skipIf(not is_paddle_cuda_available(), "some op is missing in cpu mode")`
`87`	`87`	`def test_keep_in_fp32_modules(self):`