Command Palette
Search for a command to run...

摘要
经过视觉指令微调训练的多模态大语言模型(MLLMs)在各类任务中已展现出强大的性能,但在以视觉为中心的任务(如物体计数或空间推理)方面仍存在明显局限。我们认为,这一差距源于当前主流的纯文本监督范式——该范式仅对视觉路径提供间接指导,导致MLLMs在训练过程中往往舍弃细粒度的视觉信息。本文提出一种简单而有效的正则化策略——视觉表征对齐(VIsual Representation ALignment, VIRAL),通过将MLLMs内部的视觉表征与预训练视觉基础模型(Vision Foundation Models, VFMs)的表征进行对齐,实现更有效的视觉信息整合。通过显式强制这种对齐,VIRAL不仅有助于模型保留来自输入视觉编码器的关键视觉细节,还能从VFMs中补充额外的视觉知识,从而显著提升其对复杂视觉输入进行推理的能力。实验结果表明,VIRAL在广泛采用的多模态基准测试中,对所有任务均实现了稳定且一致的性能提升。此外,我们通过全面的消融实验验证了该框架中关键设计选择的有效性。我们认为,这一简洁而有力的发现为多模态大语言模型训练中视觉信息的有效融合开辟了重要方向。