HyperAIHyperAI

Command Palette

Search for a command to run...

多阶段强化学习框架 RewardMap

Date

1 个月前

Organization

National University of Singapore
Zhejiang University

Paper URL

2510.02240

RewardMap 是由西湖大学、同济大学等高校的研究团队于 2025 年 10 月联合提出的,相关研究成果发表于论文「RewardMap: Tackling Sparse Rewards in Fine-grained Visual Reasoning via Multi-Stage Reinforcement Learning」。

RewardMap 是一个多阶段强化学习(RL)框架,旨在提升多模态大语言模型(MLLMs)的视觉理解和推理能力。该框架包含两项关键设计:首先是引入了一种难度感知的奖励设计,该设计包含细节奖励,直接解决稀疏奖励问题,同时提供更丰富的监督; 其次,研究人员提出了一种多阶段强化学习方案,该方案从简单的感知任务逐步过渡到复杂的推理任务,提供比传统监督微调(SFT)更有效的冷启动策略。

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
多阶段强化学习框架 RewardMap | Wiki | HyperAI超神经