Command Palette

Search for a command to run...

4 个月前

VL-Cogito:面向高级多模态推理的渐进式课程强化学习

VL-Cogito:面向高级多模态推理的渐进式课程强化学习

摘要

强化学习已在提升大语言模型推理能力方面展现出显著成效。近期的研究工作逐步将这一范式拓展至多模态推理任务。由于多模态任务本身具有固有的复杂性与多样性,尤其是在语义内容和问题表述方面,现有模型在不同领域及难度层级上往往表现出性能不稳定的问题。为解决上述局限,我们提出了 VL-Cogito——一种基于新型多阶段渐进式课程强化学习(Progressive Curriculum Reinforcement Learning, PCuRL)框架训练的先进多模态推理模型。PCuRL 通过系统性地引导模型逐步完成难度递增的任务,显著提升了其在多样化多模态情境下的推理能力。该框架引入两项关键创新:(1)在线难度软加权机制,动态调整强化学习各训练阶段的难度;(2)动态长度奖励机制,促使模型根据任务复杂度自适应地调节推理路径的长度,从而在推理效率与正确性之间实现良好平衡。实验评估表明,VL-Cogito 在涵盖数学、科学、逻辑与通用理解等主流多模态基准测试中,持续达到或超越现有面向推理的模型性能,充分验证了本方法的有效性。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
VL-Cogito:面向高级多模态推理的渐进式课程强化学习 | 论文 | HyperAI超神经