huggingface · Xiao-Chenguang · Nov 29, 2025 · Nov 29, 2025
diff --git a/trl/experimental/online_dpo/online_dpo_trainer.py b/trl/experimental/online_dpo/online_dpo_trainer.py
@@ -933,6 +933,11 @@ def _sync_fsdp1_params_to_vllm(self, module: nn.Module, prefix: str = "", visite
     def _sync_fsdp2_params_to_vllm(self, module: nn.Module):
         # For FSDP2, module.state_dict() already covers all parameters, so no need for recursion
         for name, param in module.state_dict().items():
+            # Fix FSDP2 + LoRA parameter naming issue with vLLM
+            if 'lora_' in name:
+                continue  # skip LoRA parameters
+            name = name.removeprefix("base_model.model.").replace(".base_layer", "")
+
             if param.is_cpu:
                 param = param.to(torch.device("cuda"))
             param = param.full_tensor()

diff --git a/trl/trainer/grpo_trainer.py b/trl/trainer/grpo_trainer.py
@@ -968,6 +968,11 @@ def _sync_fsdp1_params_to_vllm(self, module: nn.Module, prefix: str = "", visite
     def _sync_fsdp2_params_to_vllm(self, module: nn.Module):
         # For FSDP2, module.state_dict() already covers all parameters, so no need for recursion
         for name, param in module.state_dict().items():
+            # Fix FSDP2 + LoRA parameter naming issue with vLLM
+            if 'lora_' in name:
+                continue  # skip LoRA parameters
+            name = name.removeprefix("base_model.model.").replace(".base_layer", "")
+
             if param.is_cpu:
                 param = param.to(torch.device("cuda"))
             param = param.full_tensor()

diff --git a/trl/trainer/rloo_trainer.py b/trl/trainer/rloo_trainer.py
@@ -808,6 +808,11 @@ def _sync_fsdp1_params_to_vllm(self, module: nn.Module, prefix: str = "", visite
     def _sync_fsdp2_params_to_vllm(self, module: nn.Module):
         # For FSDP2, module.state_dict() already covers all parameters, so no need for recursion
         for name, param in module.state_dict().items():
+            # Fix FSDP2 + LoRA parameter naming issue with vLLM
+            if 'lora_' in name:
+                continue  # skip LoRA parameters
+            name = name.removeprefix("base_model.model.").replace(".base_layer", "")
+
             if param.is_cpu:
                 param = param.to(torch.device("cuda"))
             param = param.full_tensor()