HyperAI

日期

2 个月前

组织

论文 URL

2510.02240

标签

计算机视觉

RewardMap 是由西湖大学、同济大学等高校的研究团队于 2025 年 10 月联合提出的，相关研究成果发表于论文「RewardMap: Tackling Sparse Rewards in Fine-grained Visual Reasoning via Multi-Stage Reinforcement Learning」。

RewardMap 是一个多阶段强化学习（RL）框架，旨在提升多模态大语言模型（MLLMs）的视觉理解和推理能力。该框架包含两项关键设计：首先是引入了一种难度感知的奖励设计，该设计包含细节奖励，直接解决稀疏奖励问题，同时提供更丰富的监督；其次，研究人员提出了一种多阶段强化学习方案，该方案从简单的感知任务逐步过渡到复杂的推理任务，提供比传统监督微调（SFT）更有效的冷启动策略。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

HyperAI

日期

2 个月前

组织

论文 URL

2510.02240

标签

计算机视觉

SERES 语义感知稀疏视图重建框架

作为一个新颖的语义感知框架，用于从稀疏视图中重建 3D 模型。

2 个月前

在线强化学习框架 ReinFlow

ReinFlow 具有轻量级实现、内置探索功能，并能广泛适用于各种流策略变体。

2 个月前

分形水印 FractalForensics

FractalForensics 在常见图像处理操作和 Deepfake 操作上有较好的鲁棒性和脆弱性。

2 个月前

潜在扩散模型 SVG

SVG 实现了更快的扩散训练、高效的少步采样以及生成质量的提升。

2 个月前

靶向迁移式对抗攻击框架 FOA-Attack

联合对齐全局和局部特征，有效引导对抗样本朝向目标特征分布并增强可迁移性。

2 个月前

SAC Flow

SAC Flow 在连续控制和机器人操作基准测试中达到最先进性能。

2 个月前

TreeSynth 基于树引导子空间的合成数据方法

TreeSynth 在大规模数据合成方面展现出卓越鲁棒性和可扩展性。

3 个月前

自主操作框架 NovaFlow

NovaFlow 能够在不同的机器人形态中处理刚性、铰接和可变形物体。

3 个月前

归一化时空梯度 NSG

NSG 统计量量化了空间概率梯度与时间密度变化的比例。

2 个月前

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

多阶段强化学习框架 RewardMap | Wiki | HyperAI超神经

Command Palette

多阶段强化学习框架 RewardMap

用 AI 构建 AI

HyperAI Newsletters

Command Palette

多阶段强化学习框架 RewardMap

相关百科

SERES 语义感知稀疏视图重建框架

在线强化学习框架 ReinFlow

分形水印 FractalForensics

潜在扩散模型 SVG

靶向迁移式对抗攻击框架 FOA-Attack

SAC Flow

TreeSynth 基于树引导子空间的合成数据方法

自主操作框架 NovaFlow

归一化时空梯度 NSG

用 AI 构建 AI

HyperAI Newsletters

Command Palette

多阶段强化学习框架 RewardMap

相关百科

SERES 语义感知稀疏视图重建框架

在线强化学习框架 ReinFlow

分形水印 FractalForensics

潜在扩散模型 SVG

靶向迁移式对抗攻击框架 FOA-Attack

SAC Flow

TreeSynth 基于树引导子空间的合成数据方法

自主操作框架 NovaFlow

归一化时空梯度 NSG

用 AI 构建 AI

HyperAI Newsletters

相关百科

SERES 语义感知稀疏视图重建框架

在线强化学习框架 ReinFlow

分形水印 FractalForensics

潜在扩散模型 SVG

靶向迁移式对抗攻击框架 FOA-Attack

SAC Flow

TreeSynth 基于树引导子空间的合成数据方法

自主操作框架 NovaFlow

归一化时空梯度 NSG

相关百科

SERES 语义感知稀疏视图重建框架

在线强化学习框架 ReinFlow

分形水印 FractalForensics

潜在扩散模型 SVG

靶向迁移式对抗攻击框架 FOA-Attack

SAC Flow

TreeSynth 基于树引导子空间的合成数据方法

自主操作框架 NovaFlow

归一化时空梯度 NSG