update config

FlagOpen · shh2000 · Sep 28, 2023 · Aug 24, 2023 · Aug 20, 2023 · Aug 23, 2023
commit af2fd2f83fd560b8a326dc6b8c445eb4e814efad
diff --git a/training/benchmarks/llama1_13B/paddle b/training/benchmarks/llama1_13B/paddle
@@ -1 +1 @@
-/ssd2/laixinyi/projects/FlagPerf/training/benchmarks/llama1_7B/paddle
+../llama1_7B/paddle/
diff --git a/training/benchmarks/llama1_7B/README.md b/training/benchmarks/llama1_7B/README.md
@@ -24,7 +24,7 @@ wget https://bj.bcebos.com/paddlenlp/models/transformers/llama/data/llama_openwe
 * 运行自动加载
 
 #### 模型checkpoint
-* 运行自动下载，参数量：7B
+* 运行自动下载
 * Paddle的 LLaMA 模型的权重的使用则需要遵循[License](../../paddlenlp/transformers/llama/LICENSE)。
 
 ### 框架与芯片支持情况

diff --git a/training/nvidia/llama1_13B-paddle/config/config_A100x1x8.py b/training/nvidia/llama1_13B-paddle/config/config_A100x1x8.py
diff --git a/training/nvidia/llama1_13B-paddle/config/config_TP1PP1SH2SP8A100x1x8.py b/training/nvidia/llama1_13B-paddle/config/config_TP1PP1SH2SP8A100x1x8.py
@@ -0,0 +1,43 @@
+# model info
+model_name_or_path: str = "facebook/llama-13b" 
+tokenizer_name_or_path: str = "facebook/llama-13b"
+continue_training = 0
+split = "998,1,1"
+max_seq_length = 2048
+
+# training info
+dataloader_num_workers = 1
+max_steps = 512
+save_steps = 10000
+eval_steps = 10000
+learning_rate = 3e-4
+min_learning_rate = 3e-5
+warmup_steps = 2000
+weight_decay = 0.1
+lr_scheduler_type = "cosine"
+adam_beta1 = 0.9
+adam_beta2 = 0.95
+adam_epsilon = 1e-06
+max_grad_norm = 1.0
+target_loss = 1.0
+target_ppl = 0.6
+logging_steps = 1
+log_freq = 1
+seed = 42
+
+# for parallel
+per_device_train_batch_size = 4
+per_device_eval_batch_size = 1
+tensor_parallel_degree = 1
+pipeline_parallel_degree = 1
+sharding_parallel_degree = 8
+gradient_accumulation_steps = 32
+use_flash_attention = 1
+fuse_attention_qkv = 0
+use_fused_rms_norm = 1
+fp16 = True
+fp16_opt_level = "O2"
+scale_loss = 32768
+sharding = "stage2"
+recompute = False
+recompute_granularity = "full"
diff --git a/training/nvidia/llama1_13B-paddle/config/config_TP2PP1SH1SP4A100x1x8.py b/training/nvidia/llama1_13B-paddle/config/config_TP2PP1SH1SP4A100x1x8.py
@@ -0,0 +1,43 @@
+# model info
+model_name_or_path: str = "facebook/llama-13b" 
+tokenizer_name_or_path: str = "facebook/llama-13b"
+continue_training = 0
+split = "998,1,1"
+max_seq_length = 2048
+
+# training info
+dataloader_num_workers = 1
+max_steps = 512
+save_steps = 10000
+eval_steps = 10000
+learning_rate = 3e-4
+min_learning_rate = 3e-5
+warmup_steps = 2000
+weight_decay = 0.1
+lr_scheduler_type = "cosine"
+adam_beta1 = 0.9
+adam_beta2 = 0.95
+adam_epsilon = 1e-06
+max_grad_norm = 1.0
+target_loss = 1.0
+target_ppl = 0.6
+logging_steps = 1
+log_freq = 1
+seed = 42
+
+# for parallel
+per_device_train_batch_size = 4
+per_device_eval_batch_size = 1
+tensor_parallel_degree = 2
+pipeline_parallel_degree = 1
+sharding_parallel_degree = 4
+gradient_accumulation_steps = 64
+use_flash_attention = 1
+fuse_attention_qkv = 0
+use_fused_rms_norm = 1
+fp16 = True
+fp16_opt_level = "O2"
+scale_loss = 32768
+sharding = "stage1"
+recompute = False
+recompute_granularity = "full"
diff --git a/training/nvidia/llama1_13B-paddle/config/config_TP2PP1SH2SP4A100x1x8.py b/training/nvidia/llama1_13B-paddle/config/config_TP2PP1SH2SP4A100x1x8.py
@@ -0,0 +1,43 @@
+# model info
+model_name_or_path: str = "facebook/llama-13b" 
+tokenizer_name_or_path: str = "facebook/llama-13b"
+continue_training = 0
+split = "998,1,1"
+max_seq_length = 2048
+
+# training info
+dataloader_num_workers = 1
+max_steps = 512
+save_steps = 10000
+eval_steps = 10000
+learning_rate = 3e-4
+min_learning_rate = 3e-5
+warmup_steps = 2000
+weight_decay = 0.1
+lr_scheduler_type = "cosine"
+adam_beta1 = 0.9
+adam_beta2 = 0.95
+adam_epsilon = 1e-06
+max_grad_norm = 1.0
+target_loss = 1.0
+target_ppl = 0.6
+logging_steps = 1
+log_freq = 1
+seed = 42
+
+# for parallel
+per_device_train_batch_size = 4
+per_device_eval_batch_size = 1
+tensor_parallel_degree = 2
+pipeline_parallel_degree = 1
+sharding_parallel_degree = 4
+gradient_accumulation_steps = 64
+use_flash_attention = 1
+fuse_attention_qkv = 0
+use_fused_rms_norm = 1
+fp16 = True
+fp16_opt_level = "O2"
+scale_loss = 32768
+sharding = "stage2"
+recompute = False
+recompute_granularity = "full"
diff --git a/training/nvidia/llama1_13B-paddle/config/config_TP2PP4SH1SP1A100x1x8.py b/training/nvidia/llama1_13B-paddle/config/config_TP2PP4SH1SP1A100x1x8.py
@@ -0,0 +1,43 @@
+# model info
+model_name_or_path: str = "facebook/llama-13b" 
+tokenizer_name_or_path: str = "facebook/llama-13b"
+continue_training = 0
+split = "998,1,1"
+max_seq_length = 2048
+
+# training info
+dataloader_num_workers = 1
+max_steps = 512
+save_steps = 10000
+eval_steps = 10000
+learning_rate = 3e-4
+min_learning_rate = 3e-5
+warmup_steps = 2000
+weight_decay = 0.1
+lr_scheduler_type = "cosine"
+adam_beta1 = 0.9
+adam_beta2 = 0.95
+adam_epsilon = 1e-06
+max_grad_norm = 1.0
+target_loss = 1.0
+target_ppl = 0.6
+logging_steps = 1
+log_freq = 1
+seed = 42
+
+# for parallel
+per_device_train_batch_size = 4
+per_device_eval_batch_size = 1
+tensor_parallel_degree = 2
+pipeline_parallel_degree = 4
+sharding_parallel_degree = 1
+gradient_accumulation_steps = 256
+use_flash_attention = 1
+fuse_attention_qkv = 0
+use_fused_rms_norm = 1
+fp16 = True
+fp16_opt_level = "O2"
+scale_loss = 32768
+sharding = "stage1"
+recompute = False
+recompute_granularity = "full"
diff --git a/training/nvidia/llama1_13B-paddle/config/environment_variables.sh b/training/nvidia/llama1_13B-paddle/config/environment_variables.sh
@@ -1 +1 @@
-training/nvidia/llama1_7B-paddle/config/environment_variables.sh
+../../llama1_7B-paddle/config/environment_variables.sh
diff --git a/training/nvidia/llama1_13B-paddle/config/requirements.txt b/training/nvidia/llama1_13B-paddle/config/requirements.txt
@@ -1 +1 @@
-training/nvidia/llama1_7B-paddle/config/requirements.txt
+../../llama1_7B-paddle/config/requirements.txt
diff --git a/training/nvidia/llama1_7B-paddle/config/config_A100x1x8.py b/training/nvidia/llama1_7B-paddle/config/config_A100x1x8.py
diff --git a/training/nvidia/llama1_7B-paddle/config/config_TP1PP1SH2SP8A100x1x8.py b/training/nvidia/llama1_7B-paddle/config/config_TP1PP1SH2SP8A100x1x8.py
@@ -0,0 +1,43 @@
+# model info
+model_name_or_path: str = "facebook/llama-7b" 
+tokenizer_name_or_path: str = "facebook/llama-7b"
+continue_training = 0
+split = "998,1,1"
+max_seq_length = 2048
+
+# training info
+dataloader_num_workers = 1
+max_steps = 512
+save_steps = 10000
+eval_steps = 10000
+learning_rate = 3e-4
+min_learning_rate = 3e-5
+warmup_steps = 2000
+weight_decay = 0.1
+lr_scheduler_type = "cosine"
+adam_beta1 = 0.9
+adam_beta2 = 0.95
+adam_epsilon = 1e-06
+max_grad_norm = 1.0
+target_loss = 1.0
+target_ppl = 0.6
+logging_steps = 1
+log_freq = 1
+seed = 42
+
+# for parallel
+per_device_train_batch_size = 4
+per_device_eval_batch_size = 1
+tensor_parallel_degree = 1
+pipeline_parallel_degree = 1
+sharding_parallel_degree = 8
+gradient_accumulation_steps = 32
+use_flash_attention = 1
+fuse_attention_qkv = 0
+use_fused_rms_norm = 1
+fp16 = True
+fp16_opt_level = "O2"
+scale_loss = 32768
+sharding = "stage2"
+recompute = False
+recompute_granularity = "full"
diff --git a/training/nvidia/llama1_7B-paddle/config/config_TP2PP1SH1SP4A100x1x8.py b/training/nvidia/llama1_7B-paddle/config/config_TP2PP1SH1SP4A100x1x8.py
@@ -0,0 +1,43 @@
+# model info
+model_name_or_path: str = "facebook/llama-7b" 
+tokenizer_name_or_path: str = "facebook/llama-7b"
+continue_training = 0
+split = "998,1,1"
+max_seq_length = 2048
+
+# training info
+dataloader_num_workers = 1
+max_steps = 512
+save_steps = 10000
+eval_steps = 10000
+learning_rate = 3e-4
+min_learning_rate = 3e-5
+warmup_steps = 2000
+weight_decay = 0.1
+lr_scheduler_type = "cosine"
+adam_beta1 = 0.9
+adam_beta2 = 0.95
+adam_epsilon = 1e-06
+max_grad_norm = 1.0
+target_loss = 1.0
+target_ppl = 0.6
+logging_steps = 1
+log_freq = 1
+seed = 42
+
+# for parallel
+per_device_train_batch_size = 4
+per_device_eval_batch_size = 1
+tensor_parallel_degree = 2
+pipeline_parallel_degree = 1
+sharding_parallel_degree = 4
+gradient_accumulation_steps = 64
+use_flash_attention = 1
+fuse_attention_qkv = 0
+use_fused_rms_norm = 1
+fp16 = True
+fp16_opt_level = "O2"
+scale_loss = 32768
+sharding = "stage1"
+recompute = False
+recompute_granularity = "full"
Original file line number	Diff line number	Diff line change
		@@ -1 +1 @@
		/ssd2/laixinyi/projects/FlagPerf/training/benchmarks/llama1_7B/paddle
		../llama1_7B/paddle/
Original file line number	Diff line number	Diff line change
		@@ -1 +1 @@
		training/nvidia/llama1_7B-paddle/config/environment_variables.sh
		../../llama1_7B-paddle/config/environment_variables.sh
Original file line number	Diff line number	Diff line change
		@@ -1 +1 @@
		training/nvidia/llama1_7B-paddle/config/requirements.txt
		../../llama1_7B-paddle/config/requirements.txt