Command Palette

Search for a command to run...

多阶段强化学习框架 RewardMap

日期

5 天前

机构

National University of Singapore
Zhejiang University

论文链接

2510.02240

RewardMap 是由西湖大学、同济大学等高校的研究团队于 2025 年 10 月联合提出的,相关研究成果发表于论文「RewardMap: Tackling Sparse Rewards in Fine-grained Visual Reasoning via Multi-Stage Reinforcement Learning」。

RewardMap 是一个多阶段强化学习(RL)框架,旨在提升多模态大语言模型(MLLMs)的视觉理解和推理能力。该框架包含两项关键设计:首先是引入了一种难度感知的奖励设计,该设计包含细节奖励,直接解决稀疏奖励问题,同时提供更丰富的监督; 其次,研究人员提出了一种多阶段强化学习方案,该方案从简单的感知任务逐步过渡到复杂的推理任务,提供比传统监督微调(SFT)更有效的冷启动策略。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供