Command Palette

Search for a command to run...

2 个月前

R-4B:通过双模式退火与强化学习激励多模态大模型的通用自动思考能力

Jie Jiang Qi Yang Bolin Ni Shiming Xiang Han Hu Houwen Peng

R-4B:通过双模式退火与强化学习激励多模态大模型的通用自动思考能力

摘要

具备逐步推理能力的多模态大语言模型(MLLMs)在复杂推理任务中展现出卓越性能。然而,对于仅需简单判断即可解决的简单问题,这种推理过程显得冗余低效。为解决这一问题,我们提出R-4B——一种具备自动推理决策能力的多模态大语言模型,可根据问题复杂度自适应地决定是否启动思考过程。R-4B的核心思想是通过双模式退火(bi-mode annealing)机制,赋予模型兼具“思考”与“非思考”两种能力,并采用双模式策略优化(Bi-mode Policy Optimization, BPO)方法,提升模型准确判断是否激活推理过程的能力。具体而言,我们首先在涵盖多种主题的精心构建数据集上对模型进行训练,该数据集包含来自“思考”与“非思考”两种模式的样本;随后,模型进入第二阶段训练,采用改进的GRPO框架,强制策略模型针对每个输入查询同时生成两种模式的响应。实验结果表明,R-4B在25个具有挑战性的基准测试中均达到当前最优性能。在多数任务中,其表现优于Qwen2.5-VL-7B,且在以推理为核心的基准测试中,性能可与更大规模模型Kimi-VL-A3B-Thinking-2506(16B)相媲美,同时显著降低了计算成本。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供