Command Palette

Search for a command to run...

1 个月前

ThinkMorph:多模态交错思维链推理中的涌现特性

Jiawei Gu Yunzhuo Hao Huichen Will Wang Linjie Li Michael Qizhe Shieh Yejin Choi Ranjay Krishna Yu Cheng

ThinkMorph:多模态交错思维链推理中的涌现特性

摘要

多模态推理需要语言与视觉之间进行迭代协调,然而目前尚不明确何种交错的思维链才具有实际意义。我们提出,文本与图像的思维应作为互补而非同构的模态,彼此协同推进推理过程。基于这一原则,我们构建了ThinkMorph——一个在24,000条高质量交错推理轨迹上微调的统一模型,涵盖视觉参与程度各异的多种任务。ThinkMorph能够生成逐步推进的图文推理步骤,在具体操作视觉内容的同时保持连贯的语义逻辑。该模型在以视觉为中心的基准测试中表现显著提升(相比基础模型平均提升34.7%),并能有效泛化至域外任务,性能达到甚至超越更大规模且专有的视觉语言模型(VLM)。除性能优势外,ThinkMorph还展现出涌现的多模态智能,包括未见的视觉操作能力、推理模式间的自适应切换,以及通过多样化多模态思维实现更优的测试时扩展能力。这些发现为刻画统一模型在多模态推理中涌现能力的发展方向提供了重要启示。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
ThinkMorph:多模态交错思维链推理中的涌现特性 | 论文 | HyperAI超神经