### Feature request 支持多模态PRM模型的训练,以及使用多模态PRM与多模态大模型联合进行强化学习训练 ### Motivation 目前没有github 项目支持多模态大模型的 **类O1** 强化学习训练 ### Your contribution 感谢您在LLM方向上的贡献,基于您较为完善的代码,实现多模态的 类O1 训练变得可实现,目前我在尝试在qwen2-vl上训练一个PRM模型