5 个月前

摘要

在成功开发基于文本的推理模型（如 DeepSeek-R1）的基础上，将此类能力拓展至多模态推理领域具有巨大潜力。尽管近期研究尝试将 DeepSeek-R1 风格的强化学习（Reinforcement Learning, RL）训练范式应用于多模态大语言模型（Multimodal Large Language Models, MLLM），并聚焦于数学推理、视觉感知等特定任务，但一个关键问题仍待解决：如何通过强化学习实现通用性的视觉-语言推理？为应对这一挑战，我们开展了三项关键工作：（1）提出一种新型可扩展的多模态问答（QA）自动生成流水线，能够直接从给定图像中自主生成上下文感知、以推理为核心导向的问答对；（2）发布开源的 WeThink 数据集，包含超过 12 万组多模态问答对，并附带标注的推理路径，数据来源涵盖 18 个多样化数据集，覆盖多种问题领域；（3）在该数据集上开展系统性强化学习探索，设计了一种混合奖励机制，融合基于规则的验证与基于模型的评估，以提升在不同任务领域中的强化学习训练效率。在 14 个多样化的 MLLM 基准测试中，我们验证了 WeThink 数据集能显著提升模型性能，涵盖数学推理到各类通用多模态任务。此外，我们进一步证明，该自动化数据生成流水线可持续提升数据多样性，从而持续优化模型表现。

源 PDF