update

modelscope · Jintao-Huang · Nov 11, 2024 · Oct 23, 2024 · Nov 4, 2024 · Nov 7, 2024
commit 7b7c024e62831ad66d612dbc915f1f706c0f5965
diff --git a/docs/source/LLM/人类偏好对齐训练文档.md b/docs/source/LLM/人类偏好对齐训练文档.md
@@ -160,7 +160,7 @@ RLHF中的PPO(proximal policy optimization)阶段, 涉及到四个模型
 - cliprange_value: PPO价值损失函数中的clip范围, 默认为0.2
 - gamma: 累计奖励的折扣因子, 默认为1.0
 - lam: [GAE](https://arxiv.org/abs/1506.02438)中的lambda系数, 默认为0.95
-
+- num_sample_generations: 训练过程中生成的调试样本数量, 默认为10
 
 ```bash
 CUDA_VISIBLE_DEVICES=0 \

diff --git a/docs/source/Multi-Modal/人类偏好对齐训练文档.md b/docs/source/Multi-Modal/人类偏好对齐训练文档.md
@@ -6,6 +6,7 @@
 - [环境准备](#环境准备)
 - [数据集](#数据集)
 - [DPO](#dpo)
+- [RM](#rm)
 - [CPO](#cpo)
 - [ORPO](#orpo)
 - [SimPO](#simpo)

diff --git a/docs/source_en/LLM/Human-Preference-Alignment-Training-Documentation.md b/docs/source_en/LLM/Human-Preference-Alignment-Training-Documentation.md
@@ -5,6 +5,8 @@ This document provides training scripts for various human preference alignment a
 - [Environment Setup](#environment-setup)
 - [Dataset](#dataset)
 - [DPO](#dpo)
+- [RM](#rm)
+- [PPO](#ppo)
 - [KTO](#kto)
 - [CPO](#cpo)
 - [ORPO](#orpo)
@@ -159,6 +161,7 @@ Hyperparameters
 - cliprange_value: Clip range in the PPO value loss function, default is 0.2
 - gamma: Discount factor for cumulative rewards, default is 1.0
 - lam: Lambda value for [GAE](https://arxiv.org/abs/1506.02438), default is 0.95
+- num_sample_generations: Number of debugging samples generations throughout training, default is 10
 
 ```bash
 CUDA_VISIBLE_DEVICES=0 \