HyperAI

摘要

强化学习已在提升大语言模型推理能力方面展现出显著成效。近期的研究工作逐步将这一范式拓展至多模态推理任务。由于多模态任务本身具有固有的复杂性与多样性，尤其是在语义内容和问题表述方面，现有模型在不同领域及难度层级上往往表现出性能不稳定的问题。为解决上述局限，我们提出了 VL-Cogito——一种基于新型多阶段渐进式课程强化学习（Progressive Curriculum Reinforcement Learning, PCuRL）框架训练的先进多模态推理模型。PCuRL 通过系统性地引导模型逐步完成难度递增的任务，显著提升了其在多样化多模态情境下的推理能力。该框架引入两项关键创新：（1）在线难度软加权机制，动态调整强化学习各训练阶段的难度；（2）动态长度奖励机制，促使模型根据任务复杂度自适应地调节推理路径的长度，从而在推理效率与正确性之间实现良好平衡。实验评估表明，VL-Cogito 在涵盖数学、科学、逻辑与通用理解等主流多模态基准测试中，持续达到或超越现有面向推理的模型性能，充分验证了本方法的有效性。

摘要

VL-Cogito：面向高级多模态推理的渐进式课程强化学习

Ruifeng Yuan Chenghao Xiao Sicong Leng Jianyu Wang Long Li Weiwen Xu Hou Pong Chan Deli Zhao Tingyang Xu Zhongyu Wei

摘要

用 AI 构建 AI

Hyper Newsletters

VL-Cogito：面向高级多模态推理的渐进式课程强化学习

Ruifeng Yuan Chenghao Xiao Sicong Leng Jianyu Wang Long Li Weiwen Xu Hou Pong Chan Deli Zhao Tingyang Xu Zhongyu Wei

摘要

用 AI 构建 AI

Hyper Newsletters

Command Palette

VL-Cogito：面向高级多模态推理的渐进式课程强化学习

Ruifeng Yuan Chenghao Xiao Sicong Leng Jianyu Wang Long Li Weiwen Xu Hou Pong Chan Deli Zhao Tingyang Xu Zhongyu Wei2 more

摘要

用 AI 构建 AI

Hyper Newsletters

Command Palette

VL-Cogito：面向高级多模态推理的渐进式课程强化学习

Ruifeng Yuan Chenghao Xiao Sicong Leng Jianyu Wang Long Li Weiwen Xu Hou Pong Chan Deli Zhao Tingyang Xu Zhongyu Wei2 more

摘要

用 AI 构建 AI

Hyper Newsletters

Ruifeng Yuan Chenghao Xiao Sicong Leng Jianyu Wang Long Li Weiwen Xu Hou Pong Chan Deli Zhao Tingyang Xu Zhongyu Wei

Ruifeng Yuan Chenghao Xiao Sicong Leng Jianyu Wang Long Li Weiwen Xu Hou Pong Chan Deli Zhao Tingyang Xu Zhongyu Wei