Command Palette

Search for a command to run...

5 个月前

开放视觉推理器:将语言认知行为迁移至视觉推理

开放视觉推理器:将语言认知行为迁移至视觉推理

摘要

大型语言模型(LLMs)的卓越推理能力源于通过可验证奖励进行强化而产生的认知行为。本研究探讨了如何将这一原则应用于多模态大型语言模型(MLLMs),以解锁高级视觉推理能力。我们提出了一种基于Qwen2.5-VL-7B的两阶段范式:首先进行大规模的语言冷启动微调,然后进行近1000步的多模态强化学习(RL),其规模超过了所有先前的开源尝试。这项开创性工作揭示了三个基本见解:1) 由于语言心理图像的存在,行为转移在冷启动初期就意外地出现;2) 冷启动广泛记忆视觉行为,而强化学习则关键在于识别并放大有效模式;3) 转移策略性地倾向于高效用的行为,如视觉反思。我们的最终模型Open-Vision-Reasoner(OVR)在一系列推理基准测试中取得了最先进的性能,包括在MATH500上达到95.3%,在MathVision上达到51.8%,以及在MathVerse上达到54.6%。我们发布了该模型、数据及训练动态,以促进更具能力、行为对齐的多模态推理器的发展。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供