HyperAI

摘要

当前的多模态模型致力于突破单模态表征的局限，通过统一理解与生成能力实现更深层次的语义整合，通常以文本到图像（Text-to-Image, T2I）任务作为校准语义一致性的基准。然而，这些模型在训练与评估中过度依赖静态的单图像生成，导致其容易陷入对静态模式匹配与语义融合的过拟合，从根本上削弱了其对随时间演进的动态过程进行建模的能力。为应对上述局限，我们提出 Envision——一个面向链式文本到多图像生成的因果事件演化基准。该基准基于世界常识构建，并以时空因果结构为组织框架，重构了现有的评估维度，包含1000个四阶段提示（prompts），覆盖科学与人文学科六大领域。为推动评估范式从单幅图像向序列帧转变，检验模型是否真正内化世界知识并遵循因果-时间约束，我们引入 Envision-Score，这是一种综合性评估指标，整合了多维度的一致性、物理合理性与美学质量。对15种模型（10种专用T2I模型与5种统一型多模态模型）的全面评估发现：专用T2I模型在美学呈现方面表现优异，但缺乏内在的世界知识；而统一型多模态模型在因果叙事连贯性方面显著优于专用模型，有效弥合了这一差距。然而，即便如此，这些统一架构仍逊色于闭源模型，且难以克服时空一致性这一核心挑战。该结果表明，将研究重点局限于因果隔离的单幅图像，会严重制约模型在多帧推理与生成方面的能力，导致其更倾向于静态模式匹配而非动态世界建模，最终限制了对世界知识的真正内化与生成能力的提升。

摘要

Envision：面向因果世界过程洞察的统一理解与生成基准测试

Juanxi Tian Siyuan Li Conghui He Lijun Wu Cheng Tan

摘要

代码仓库

用 AI 构建 AI

Hyper Newsletters

Envision：面向因果世界过程洞察的统一理解与生成基准测试

Juanxi Tian Siyuan Li Conghui He Lijun Wu Cheng Tan

摘要

代码仓库

用 AI 构建 AI

Hyper Newsletters

Command Palette

Envision：面向因果世界过程洞察的统一理解与生成基准测试

Juanxi Tian Siyuan Li Conghui He Lijun Wu Cheng Tan

摘要

代码仓库

用 AI 构建 AI

Hyper Newsletters

Command Palette

Envision：面向因果世界过程洞察的统一理解与生成基准测试

Juanxi Tian Siyuan Li Conghui He Lijun Wu Cheng Tan

摘要

代码仓库

用 AI 构建 AI

Hyper Newsletters