HyperAI

日期

7 个月前

组织

论文 URL

2510.02240

标签

计算机视觉

RewardMap 是由西湖大学、同济大学等高校的研究团队于 2025 年 10 月联合提出的，相关研究成果发表于论文「RewardMap: Tackling Sparse Rewards in Fine-grained Visual Reasoning via Multi-Stage Reinforcement Learning」。

RewardMap 是一个多阶段强化学习（RL）框架，旨在提升多模态大语言模型（MLLMs）的视觉理解和推理能力。该框架包含两项关键设计：首先是引入了一种难度感知的奖励设计，该设计包含细节奖励，直接解决稀疏奖励问题，同时提供更丰富的监督；其次，研究人员提出了一种多阶段强化学习方案，该方案从简单的感知任务逐步过渡到复杂的推理任务，提供比传统监督微调（SFT）更有效的冷启动策略。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

多阶段强化学习框架 RewardMap

用 AI 构建 AI

HyperAI Newsletters

Command Palette

多阶段强化学习框架 RewardMap

相关百科

模型融合 Model Souping

思维引导的强化学习框架 Guided Thought Reinforcement

部署中学习 Learning While Deploying

稀疏化接码树 Decoding Tree Sketching

稠密检索器 Dense Retriever

WorldGen

空间理论 Theory of Space

Peak-Return Greedy Slicing

均值速度策略 MVP

用 AI 构建 AI

HyperAI Newsletters

Command Palette

多阶段强化学习框架 RewardMap

相关百科

模型融合 Model Souping

思维引导的强化学习框架 Guided Thought Reinforcement

部署中学习 Learning While Deploying

稀疏化接码树 Decoding Tree Sketching

稠密检索器 Dense Retriever

WorldGen

空间理论 Theory of Space

Peak-Return Greedy Slicing

均值速度策略 MVP

用 AI 构建 AI

HyperAI Newsletters

相关百科

模型融合 Model Souping

思维引导的强化学习框架 Guided Thought Reinforcement

部署中学习 Learning While Deploying

稀疏化接码树 Decoding Tree Sketching

稠密检索器 Dense Retriever

WorldGen

空间理论 Theory of Space

Peak-Return Greedy Slicing

均值速度策略 MVP

相关百科

模型融合 Model Souping

思维引导的强化学习框架 Guided Thought Reinforcement

部署中学习 Learning While Deploying

稀疏化接码树 Decoding Tree Sketching

稠密检索器 Dense Retriever

WorldGen

空间理论 Theory of Space

Peak-Return Greedy Slicing

均值速度策略 MVP