Command Palette

Search for a command to run...

4 天前

Envision:面向因果世界过程洞察的统一理解与生成基准测试

Juanxi Tian Siyuan Li Conghui He Lijun Wu Cheng Tan

Envision:面向因果世界过程洞察的统一理解与生成基准测试

摘要

当前的多模态模型致力于突破单模态表征的局限,通过统一理解与生成能力实现更深层次的语义整合,通常以文本到图像(Text-to-Image, T2I)任务作为校准语义一致性的基准。然而,这些模型在训练与评估中过度依赖静态的单图像生成,导致其容易陷入对静态模式匹配与语义融合的过拟合,从根本上削弱了其对随时间演进的动态过程进行建模的能力。为应对上述局限,我们提出 Envision——一个面向链式文本到多图像生成的因果事件演化基准。该基准基于世界常识构建,并以时空因果结构为组织框架,重构了现有的评估维度,包含1000个四阶段提示(prompts),覆盖科学与人文学科六大领域。为推动评估范式从单幅图像向序列帧转变,检验模型是否真正内化世界知识并遵循因果-时间约束,我们引入 Envision-Score,这是一种综合性评估指标,整合了多维度的一致性、物理合理性与美学质量。对15种模型(10种专用T2I模型与5种统一型多模态模型)的全面评估发现:专用T2I模型在美学呈现方面表现优异,但缺乏内在的世界知识;而统一型多模态模型在因果叙事连贯性方面显著优于专用模型,有效弥合了这一差距。然而,即便如此,这些统一架构仍逊色于闭源模型,且难以克服时空一致性这一核心挑战。该结果表明,将研究重点局限于因果隔离的单幅图像,会严重制约模型在多帧推理与生成方面的能力,导致其更倾向于静态模式匹配而非动态世界建模,最终限制了对世界知识的真正内化与生成能力的提升。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Envision:面向因果世界过程洞察的统一理解与生成基准测试 | 论文 | HyperAI超神经