Command Palette
Search for a command to run...
Juanxi Tian Siyuan Li Conghui He Lijun Wu Cheng Tan

摘要
当前的多模态模型致力于突破单模态表征的局限,通过统一理解与生成能力实现更深层次的语义整合,通常以文本到图像(Text-to-Image, T2I)任务作为校准语义一致性的基准。然而,这些模型在训练与评估中过度依赖静态的单图像生成,导致其容易陷入对静态模式匹配与语义融合的过拟合,从根本上削弱了其对随时间演进的动态过程进行建模的能力。为应对上述局限,我们提出 Envision——一个面向链式文本到多图像生成的因果事件演化基准。该基准基于世界常识构建,并以时空因果结构为组织框架,重构了现有的评估维度,包含1000个四阶段提示(prompts),覆盖科学与人文学科六大领域。为推动评估范式从单幅图像向序列帧转变,检验模型是否真正内化世界知识并遵循因果-时间约束,我们引入 Envision-Score,这是一种综合性评估指标,整合了多维度的一致性、物理合理性与美学质量。对15种模型(10种专用T2I模型与5种统一型多模态模型)的全面评估发现:专用T2I模型在美学呈现方面表现优异,但缺乏内在的世界知识;而统一型多模态模型在因果叙事连贯性方面显著优于专用模型,有效弥合了这一差距。然而,即便如此,这些统一架构仍逊色于闭源模型,且难以克服时空一致性这一核心挑战。该结果表明,将研究重点局限于因果隔离的单幅图像,会严重制约模型在多帧推理与生成方面的能力,导致其更倾向于静态模式匹配而非动态世界建模,最终限制了对世界知识的真正内化与生成能力的提升。