日期

2 个月前

组织

论文 URL

2509.22647

标签

计算机视觉

CapRL 是由中国科学技术大学、香港中文大学联合上海人工智能实验室等高校机构的研究团队于 2025 年 9 月提出的，相关研究成果发表于论文「CapRL: Stimulating Dense Image Caption Capabilities via Reinforcement Learning」。

CapRL 是一个通过实用性重新定义描述质量的新型训练框架：高质量的描述应使非视觉语言模型能够准确回答关于相应图像的问题，它采用解耦的两阶段流程，其中大型语言视觉模型（LVLM）生成描述，而目标奖励则源自于一个独立的、无视觉能力的大语言模型（LLM）根据该描述回答选择题的准确性。在由 CapRL-3B 标注的 CapRL-5M 描述数据集上进行预训练，CapRL 在 12 个基准测试中均取得了显著提升。此外，在描述质量评估的 Prism 框架中，其性能与 Qwen2.5-VL-72B 相当，平均超出基线 8.4% 。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

HyperAI

日期

2 个月前

组织

论文 URL

2509.22647

标签

计算机视觉

强化学习框架 Mem-𝛼

Mem-𝛼 在多种基准测试中相较于现有的记忆增强智能体基线取得了显著改进。

2 个月前

布局控制框架 InstanceAssemble

InstanceAssemble 在多模态条件下推动了高质量且可控的图像生成。

2 个月前

猜测-思考-回答 Guess–Think–Answer

GTA 在多个文本分类基准测试中均显著优于标准 SFT 基线和最先进的 RL 方法。

3 个月前

多阶段强化学习框架 RewardMap

RewardMap 提升了多模态大语言模型在结构化视觉任务中的能力。

2 个月前

布局控制 Layout-to-Image

Layout-to-Image 为图像生成提供了灵活的控制机制。

2 个月前

指数-高斯混合网络 EGMN

EGMN 成功捕捉了用户偏好和视频特征之间的潜在交互效应。

2 个月前

DiDi-Instruct 后训练方法

首个成功将分布匹配蒸馏应用于基于 MDM 的文本生成，并在少步语言序列生成方面创下纪录的框架。

2 个月前

多编程语言 MoE 架构：MultiPL-MoE

MultiPL-MoE 是后预训练阶段扩展低源编程语言的一种有效方法。

2 个月前

HiPO 混合策略优化框架

HiPO 用于自适应 LLM 推理，主要包括混合数据构建和混合强化学习。

2 个月前

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

CapRL 描述强化学习 | Wiki | HyperAI超神经

Command Palette

CapRL 描述强化学习

用 AI 构建 AI

HyperAI Newsletters

Command Palette

CapRL 描述强化学习

相关百科

强化学习框架 Mem-𝛼

布局控制框架 InstanceAssemble

猜测-思考-回答 Guess–Think–Answer

多阶段强化学习框架 RewardMap

布局控制 Layout-to-Image

指数-高斯混合网络 EGMN

DiDi-Instruct 后训练方法

多编程语言 MoE 架构：MultiPL-MoE

HiPO 混合策略优化框架

用 AI 构建 AI

HyperAI Newsletters

Command Palette

CapRL 描述强化学习

相关百科

强化学习框架 Mem-𝛼

布局控制框架 InstanceAssemble

猜测-思考-回答 Guess–Think–Answer

多阶段强化学习框架 RewardMap

布局控制 Layout-to-Image

指数-高斯混合网络 EGMN

DiDi-Instruct 后训练方法

多编程语言 MoE 架构：MultiPL-MoE

HiPO 混合策略优化框架

用 AI 构建 AI

HyperAI Newsletters

相关百科

强化学习框架 Mem-𝛼

布局控制框架 InstanceAssemble

猜测-思考-回答 Guess–Think–Answer

多阶段强化学习框架 RewardMap

布局控制 Layout-to-Image

指数-高斯混合网络 EGMN

DiDi-Instruct 后训练方法

多编程语言 MoE 架构：MultiPL-MoE

HiPO 混合策略优化框架

相关百科

强化学习框架 Mem-𝛼

布局控制框架 InstanceAssemble

猜测-思考-回答 Guess–Think–Answer

多阶段强化学习框架 RewardMap

布局控制 Layout-to-Image

指数-高斯混合网络 EGMN

DiDi-Instruct 后训练方法

多编程语言 MoE 架构：MultiPL-MoE

HiPO 混合策略优化框架