1 个月前

WeThink:通过强化学习实现通用视觉-语言推理

WeThink:通过强化学习实现通用视觉-语言推理

摘要

在成功开发基于文本的推理模型(如 DeepSeek-R1)的基础上,将此类能力拓展至多模态推理领域具有巨大潜力。尽管近期研究尝试将 DeepSeek-R1 风格的强化学习(Reinforcement Learning, RL)训练范式应用于多模态大语言模型(Multimodal Large Language Models, MLLM),并聚焦于数学推理、视觉感知等特定任务,但一个关键问题仍待解决:如何通过强化学习实现通用性的视觉-语言推理?为应对这一挑战,我们开展了三项关键工作:(1)提出一种新型可扩展的多模态问答(QA)自动生成流水线,能够直接从给定图像中自主生成上下文感知、以推理为核心导向的问答对;(2)发布开源的 WeThink 数据集,包含超过 12 万组多模态问答对,并附带标注的推理路径,数据来源涵盖 18 个多样化数据集,覆盖多种问题领域;(3)在该数据集上开展系统性强化学习探索,设计了一种混合奖励机制,融合基于规则的验证与基于模型的评估,以提升在不同任务领域中的强化学习训练效率。在 14 个多样化的 MLLM 基准测试中,我们验证了 WeThink 数据集能显著提升模型性能,涵盖数学推理到各类通用多模态任务。此外,我们进一步证明,该自动化数据生成流水线可持续提升数据多样性,从而持续优化模型表现。

代码仓库

yangjie-cv/wethink
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
optical-character-recognition-on-ocrbench-v2-chineseWeThink-Qwen2.5VL-7B
Accuracy: 55.8

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
WeThink:通过强化学习实现通用视觉-语言推理 | 论文 | HyperAI超神经