modelscope · Jintao-Huang · Aug 5, 2024 · Aug 4, 2024 · Aug 4, 2024 · Aug 4, 2024
diff --git a/docs/source/LLM/LLM微调文档.md b/docs/source/LLM/LLM微调文档.md
@@ -253,6 +253,10 @@ CUDA_VISIBLE_DEVICES=0 swift infer \
     --ckpt_dir 'xxx/vx-xxx/checkpoint-xxx' \
     --load_dataset_config true \
 
+# 如果需要更换val_dataset
+CUDA_VISIBLE_DEVICES=0 swift infer \
+    --ckpt_dir 'xxx/vx-xxx/checkpoint-xxx' --val_dataset <your-val-dataset>
+
 # Merge LoRA增量权重并推理
 # 如果你需要量化, 可以指定`--quant_bits 4`.
 CUDA_VISIBLE_DEVICES=0 swift export \

diff --git a/docs/source/LLM/Megatron训练文档.md b/docs/source/LLM/Megatron训练文档.md
@@ -19,7 +19,7 @@ pip install -e '.[llm]'
 
 # 安装megatron相关依赖 (你不需要安装megatron-ml等其他依赖库)
 pip install pybind11
-# transformer_engine
+# transformer_engine (如果安装不成功请尝试: release_v1.7)
 pip install git+https://github.com/NVIDIA/TransformerEngine.git@stable
 # apex
 git clone https://github.com/NVIDIA/apex
@@ -30,7 +30,6 @@ pip install -v --disable-pip-version-check --no-cache-dir --no-build-isolation -
 其他两个依赖库为[Megatron-LM](https://github.com/NVIDIA/Megatron-LM)和[Pai-Megatron-Patch](https://github.com/alibaba/Pai-Megatron-Patch). 会由swift进行git clone并安装, 不需要用户进行安装. 你也可以通过环境变量`MEGATRON_LM_PATH`, `PAI_MEGATRON_PATCH_PATH`指定已经下载好的repo路径.
 
 
-
 ## SFT案例
 这里介绍可以很快跑通的使用megatron训练的案例，通过此案例，你可以熟悉magatron训练的全流程。使用HF Trainer进行微调的对应案例可以查看[自我认知微调最佳实践](自我认知微调最佳实践.md).
 
@@ -39,6 +38,10 @@ pip install -v --disable-pip-version-check --no-cache-dir --no-build-isolation -
 # 默认输出路径: --megatron_output_dir {model_type}-tp{tp}-pp{pp}
 CUDA_VISIBLE_DEVICES=0 swift export --model_type qwen2-7b-instruct \
     --to_megatron true --tp 2 --dtype bf16
+
+# 如果使用qwen2-72b-instruct，转换命令如下:
+CUDA_VISIBLE_DEVICES=0,1,2,3 swift export --model_type qwen2-72b-instruct \
+    --to_megatron true --tp 8 --dtype bf16
 ```
 
 2. 使用megatron格式权重进行微调，命令脚本如下:
@@ -66,6 +69,10 @@ CUDA_VISIBLE_DEVICES=0 swift export \
 # 微调后模型
 CUDA_VISIBLE_DEVICES=0 swift export \
     --ckpt_dir output/qwen2-7b-instruct-tp2-pp1/vx-xxx --to_hf true
+
+# 如果使用qwen2-72b-instruct，转换命令如下:
+CUDA_VISIBLE_DEVICES=0,1,2,3 swift export \
+    --ckpt_dir qwen2-72b-instruct-tp8-pp1 --to_hf true
 ```
 
 4. 对获得的权重进行推理测试，并使用vLLM进行加速:

diff --git a/docs/source/LLM/命令行参数.md b/docs/source/LLM/命令行参数.md
@@ -269,49 +269,49 @@ RLHF参数继承了sft参数, 除此之外增加了以下参数:
 
 ## infer merge-lora 参数
 
-- `--model_type`: 默认值为`None`, 具体的参数介绍可以在`sft.sh命令行参数`中查看.
-- `--model_id_or_path`: 默认值为`None`, 具体的参数介绍可以在`sft.sh命令行参数`中查看. 推荐使用model_type的方式指定.
-- `--model_revision`: 默认值为`None`. 具体的参数介绍可以在`sft.sh命令行参数`中查看. 如果`model_id_or_path`为None或者是本地的模型目录, 则该参数失效.
-- `--sft_type`: 默认值为`'lora'`, 具体的参数介绍可以在`sft.sh命令行参数`中查看.
-- `--template_type`: 默认值为`'AUTO'`, 具体的参数介绍可以在`sft.sh命令行参数`中查看.
+- `--model_type`: 默认值为`None`, 具体的参数介绍可以在`sft命令行参数`中查看.
+- `--model_id_or_path`: 默认值为`None`, 具体的参数介绍可以在`sft命令行参数`中查看. 推荐使用model_type的方式指定.
+- `--model_revision`: 默认值为`None`. 具体的参数介绍可以在`sft命令行参数`中查看. 如果`model_id_or_path`为None或者是本地的模型目录, 则该参数失效.
+- `--sft_type`: 默认值为`'lora'`, 具体的参数介绍可以在`sft命令行参数`中查看.
+- `--template_type`: 默认值为`'AUTO'`, 具体的参数介绍可以在`sft命令行参数`中查看.
 - `--infer_backend`: 你可以选择'AUTO', 'vllm', 'pt'. 默认使用'AUTO', 进行智能选择, 即如果没有传入`ckpt_dir`或使用全参数微调, 并且安装了vllm且模型支持vllm则使用vllm引擎, 否则使用原生torch进行推理. vllm环境准备可以参考[VLLM推理加速与部署](VLLM推理加速与部署.md#环境准备), vllm支持的模型可以查看[支持的模型](支持的模型和数据集.md#模型).
 - `--ckpt_dir`: 必填项, 值为SFT阶段保存的checkpoint路径, e.g. `'/path/to/your/vx-xxx/checkpoint-xxx'`.
 - `--load_args_from_ckpt_dir`: 是否从`ckpt_dir`的`sft_args.json`文件中读取模型配置信息. 默认是`True`.
 - `--load_dataset_config`: 该参数只有在`--load_args_from_ckpt_dir true`时才生效. 即是否从`ckpt_dir`的`sft_args.json`文件中读取数据集相关的配置信息. 默认为`False`.
 - `--eval_human`: 使用数据集中的验证集部分进行评估还是使用人工的方式评估. 默认值为`None`, 进行智能选择,  如果没有任何数据集(含自定义数据集)传入, 则会使用人工评估的方式. 如果有数据集传入, 则会使用数据集方式评估.
 - `--device_map_config_path`: 从本地文件中手动配置模型的device_map, 默认为None.
 - `--device_max_memory`: 每个设备device_map的最大可用显存, `List`, 默认为`[]`, 传递的值数量必须和可见显卡数量相等. 比如`10GB 10GB`.
-- `--seed`: 默认值为`42`, 具体的参数介绍可以在`sft.sh命令行参数`中查看.
-- `--dtype`: 默认值为`'AUTO`, 具体的参数介绍可以在`sft.sh命令行参数`中查看.
-- `--dataset`: 默认值为`[]`, 具体的参数介绍可以在`sft.sh命令行参数`中查看.
-- `--val_dataset`: 默认为`[]`, 具体的参数介绍可以在`sft.sh命令行参数`中查看.
-- `--dataset_seed`: 默认值为`None`, 具体的参数介绍可以在`sft.sh命令行参数`中查看.
-- `--dataset_test_ratio`: 默认值为`0.01`. 具体的参数介绍可以在`sft.sh命令行参数`中查看.
+- `--seed`: 默认值为`42`, 具体的参数介绍可以在`sft命令行参数`中查看.
+- `--dtype`: 默认值为`'AUTO`, 具体的参数介绍可以在`sft命令行参数`中查看.
+- `--dataset`: 默认值为`[]`, 具体的参数介绍可以在`sft命令行参数`中查看.
+- `--val_dataset`: 默认为`[]`, 具体的参数介绍可以在`sft命令行参数`中查看.
+- `--dataset_seed`: 默认值为`None`, 具体的参数介绍可以在`sft命令行参数`中查看.
+- `--dataset_test_ratio`: 默认值为`0.01`. 具体的参数介绍可以在`sft命令行参数`中查看.
 - `--show_dataset_sample`: 表示想要评估和展示的验证集的数量, 默认值为`10`.
-- `--system`: 默认值为`None`. 具体的参数介绍可以在`sft.sh命令行参数`中查看.
-- `--tools_prompt`: 默认值为`react_en`. 具体的参数介绍可以在`sft.sh命令行参数`中查看.
-- `--max_length`: 默认值为`-1`. 具体的参数介绍可以在`sft.sh命令行参数`中查看.
-- `--truncation_strategy`: 默认是`'delete'`. 具体的参数介绍可以在`sft.sh命令行参数`中查看.
-- `--check_dataset_strategy`: 默认值为`'none'`, 具体的参数介绍可以在`sft.sh命令行参数`中查看.
+- `--system`: 默认值为`None`. 具体的参数介绍可以在`sft命令行参数`中查看.
+- `--tools_prompt`: 默认值为`react_en`. 具体的参数介绍可以在`sft命令行参数`中查看.
+- `--max_length`: 默认值为`-1`. 具体的参数介绍可以在`sft命令行参数`中查看.
+- `--truncation_strategy`: 默认是`'delete'`. 具体的参数介绍可以在`sft命令行参数`中查看.
+- `--check_dataset_strategy`: 默认值为`'none'`, 具体的参数介绍可以在`sft命令行参数`中查看.
 - `--custom_train_dataset_path`: 默认值为`[]`. 该参数已废弃, 请使用`--dataset {dataset_path}`.
 - `--custom_val_dataset_path`: 默认值为`[]`. 该参数已废弃. 请使用`--val_dataset {dataset_path}`.
-- `--quantization_bit`: 默认值为0. 具体的参数介绍可以在`sft.sh命令行参数`中查看.
+- `--quantization_bit`: 默认值为0. 具体的参数介绍可以在`sft命令行参数`中查看.
 - `--quant_method`: 量化方法, 默认为`None`. 你可以选择为'bnb', 'hqq', 'eetq'.
 - `--hqq_axis`: hqq量化参数，表示执行分组的所沿的轴，默认为`0`, 可选值包括`0`,`1`
 - `--hqq_dynamic_config_path`: hqq本地配置路径，支持对模型不同层配置不同的量化配置，[参考](https://github.com/mobiusml/hqq?tab=readme-ov-file#custom-quantization-configurations-%EF%B8%8F)
-- `--bnb_4bit_comp_dtype`: 默认值为`'AUTO'`.  具体的参数介绍可以在`sft.sh命令行参数`中查看. 若`quantization_bit`设置为0, 则该参数失效.
-- `--bnb_4bit_quant_type`: 默认值为`'nf4'`.  具体的参数介绍可以在`sft.sh命令行参数`中查看. 若`quantization_bit`设置为0, 则该参数失效.
-- `--bnb_4bit_use_double_quant`: 默认值为`True`.  具体的参数介绍可以在`sft.sh命令行参数`中查看. 若`quantization_bit`设置为0, 则该参数失效.
-- `--bnb_4bit_quant_storage`: 默认值为`True`. 具体的参数介绍可以在`sft.sh命令行参数`中查看. 若`quantization_bit`设置为0, 则该参数失效.
+- `--bnb_4bit_comp_dtype`: 默认值为`'AUTO'`.  具体的参数介绍可以在`sft命令行参数`中查看. 若`quantization_bit`设置为0, 则该参数失效.
+- `--bnb_4bit_quant_type`: 默认值为`'nf4'`.  具体的参数介绍可以在`sft命令行参数`中查看. 若`quantization_bit`设置为0, 则该参数失效.
+- `--bnb_4bit_use_double_quant`: 默认值为`True`.  具体的参数介绍可以在`sft命令行参数`中查看. 若`quantization_bit`设置为0, 则该参数失效.
+- `--bnb_4bit_quant_storage`: 默认值为`True`. 具体的参数介绍可以在`sft命令行参数`中查看. 若`quantization_bit`设置为0, 则该参数失效.
 - `--max_new_tokens`: 生成新token的最大数量, 默认值为`2048`.
 - `--do_sample`: 是使用贪婪生成的方式还是采样生成的方式, 默认值为`True`.
 - `--temperature`: 默认值为`0.3`. 该参数只有在`do_sample`设置为True时才生效. 该参数会在部署参数中作为默认值使用.
 - `--top_k`: 默认值为`20`. 该参数只有在`do_sample`设置为True时才生效. 该参数会在部署参数中作为默认值使用.
 - `--top_p`: 默认值为`0.7`. 该参数只有在`do_sample`设置为True时才生效. 该参数会在部署参数中作为默认值使用.
 - `--repetition_penalty`: 默认值为`1.`. 该参数会在部署参数中作为默认值使用.
 - `--num_beams`: 默认为`1`.
-- `--use_flash_attn`: 默认值为`None`, 即为'auto'. 具体的参数介绍可以在`sft.sh命令行参数`中查看.
-- `--ignore_args_error`: 默认值为`False`, 具体的参数介绍可以在`sft.sh命令行参数`中查看.
+- `--use_flash_attn`: 默认值为`None`, 即为'auto'. 具体的参数介绍可以在`sft命令行参数`中查看.
+- `--ignore_args_error`: 默认值为`False`, 具体的参数介绍可以在`sft命令行参数`中查看.
 - `--stream`: 是否使用流式输出, 默认为`True`. 该参数只有在使用数据集评估并且verbose为True时才生效.
 - `--merge_lora`: 是否将lora权重merge到基模型中, 并保存完整的权重, 默认为`False`. 权重会保存在`ckpt_dir`的同级目录中, e.g. `'/path/to/your/vx-xxx/checkpoint-xxx-merged'`目录下.
 - `--merge_device_map`: merge-lora时使用的device_map, 默认为`None`, 为减少显存占用, 在仅有merge-lora过程时使用`auto`，其他情况默认使用`cpu`.
@@ -357,8 +357,8 @@ export参数继承了infer参数, 除此之外增加了以下参数:
 - `--quant_output_dir`: 默认为`None`, 默认的quant_output_dir会被打印在命令行中.
 - `--push_to_hub`: 默认为`False`. 是否将最后的`ckpt_dir`push到ModelScope Hub中. 如果你指定了`merge_lora`, 则将推送全量参数; 如果你还指定了`quant_bits`, 则将推送量化后的模型.
 - `--hub_model_id`: 默认为`None`. 推送到的ModelScope Hub的model_id. 如果`push_to_hub`设置为True, 该参数必须被设置.
-- `--hub_token`: 默认为`None`. 具体的参数介绍可以在`sft.sh命令行参数`中查看.
-- `--hub_private_repo`: 默认为`False`. 具体的参数介绍可以在`sft.sh命令行参数`中查看.
+- `--hub_token`: 默认为`None`. 具体的参数介绍可以在`sft命令行参数`中查看.
+- `--hub_private_repo`: 默认为`False`. 具体的参数介绍可以在`sft命令行参数`中查看.
 - `--commit_message`: 默认是`'update files'`.
 - `--to_ollama`: 转为ollama导出.
 - `--ollama_output_dir`: ollama输出目录. 默认存储在当前目录下的`模型类型-ollama`文件夹内.
@@ -404,6 +404,8 @@ deploy参数继承了infer参数, 除此之外增加了以下参数:
 - `--api_key`: 默认为`None`, 即不对请求进行api_key验证.
 - `--ssl_keyfile`: 默认为`None`.
 - `--ssl_certfile`: 默认为`None`.
+- `--verbose`: 是否对请求内容进行打印, 默认为`True`.
+- `--log_interval`: 对统计信息进行打印的间隔, 单位为秒. 默认为`0`, 表示不打印统计信息.
 
 ## web-ui 参数