Command Palette
Search for a command to run...
多阶段强化学习框架 RewardMap
RewardMap 是由西湖大学、同济大学等高校的研究团队于 2025 年 10 月联合提出的,相关研究成果发表于论文「RewardMap: Tackling Sparse Rewards in Fine-grained Visual Reasoning via Multi-Stage Reinforcement Learning」。
RewardMap 是一个多阶段强化学习(RL)框架,旨在提升多模态大语言模型(MLLMs)的视觉理解和推理能力。该框架包含两项关键设计:首先是引入了一种难度感知的奖励设计,该设计包含细节奖励,直接解决稀疏奖励问题,同时提供更丰富的监督; 其次,研究人员提出了一种多阶段强化学习方案,该方案从简单的感知任务逐步过渡到复杂的推理任务,提供比传统监督微调(SFT)更有效的冷启动策略。