Command Palette
Search for a command to run...
Jiawei Gu Yunzhuo Hao Huichen Will Wang Linjie Li Michael Qizhe Shieh Yejin Choi Ranjay Krishna Yu Cheng

摘要
多模态推理需要语言与视觉之间进行迭代协调,然而目前尚不明确何种交错的思维链才具有实际意义。我们提出,文本与图像的思维应作为互补而非同构的模态,彼此协同推进推理过程。基于这一原则,我们构建了ThinkMorph——一个在24,000条高质量交错推理轨迹上微调的统一模型,涵盖视觉参与程度各异的多种任务。ThinkMorph能够生成逐步推进的图文推理步骤,在具体操作视觉内容的同时保持连贯的语义逻辑。该模型在以视觉为中心的基准测试中表现显著提升(相比基础模型平均提升34.7%),并能有效泛化至域外任务,性能达到甚至超越更大规模且专有的视觉语言模型(VLM)。除性能优势外,ThinkMorph还展现出涌现的多模态智能,包括未见的视觉操作能力、推理模式间的自适应切换,以及通过多样化多模态思维实现更优的测试时扩展能力。这些发现为刻画统一模型在多模态推理中涌现能力的发展方向提供了重要启示。