Supporting Multi-modality

### Feature request

支持多模态PRM模型的训练，以及使用多模态PRM与多模态大模型联合进行强化学习训练

### Motivation

目前没有github 项目支持多模态大模型的 **类O1** 强化学习训练

### Your contribution

感谢您在LLM方向上的贡献，基于您较为完善的代码，实现多模态的 类O1 训练变得可实现，目前我在尝试在qwen2-vl上训练一个PRM模型