Command Palette
Search for a command to run...
Klemen Kotar Wanhee Lee Rahul Venkatesh Honglin Chen Daniel Bear et al

摘要
我们提出概率结构整合(Probabilistic Structure Integration, PSI),一种能够从数据中学习高度可控且灵活可提示的世界模型的系统。PSI 采用三步循环机制。第一步为“概率预测”,即构建一个数据的概率图模型 Ψ,其形式为一种支持随机访问的自回归序列模型。该模型 Ψ 能够表达一组完整的、从数据中学习到的条件分布,精确描述数据中任意变量对其他任意变量集合的依赖关系。第二步为“结构提取”,我们展示如何通过在 Ψ 上进行因果推断,以零样本(zero-shot)方式提取数据中潜在的低维属性,这些属性对应于多种有意义的“中间结构”。第三步为“结构整合”,该步骤通过将这些提取出的结构转化为新的标记类型,并持续将其作为条件信号和预测目标重新注入训练过程,从而完成整个循环。每一次循环都会增强 Ψ 的能力,不仅使其能够更准确地建模底层数据,还引入了新的控制手段——类似于大型语言模型(LLM)所具备的通用提示语言。我们在 1.4 万亿个标记的互联网视频数据上训练了一个 PSI 实例;利用该模型实现了多种实用的视频预测与理解推理任务;成功提取了当前最先进的光流、自监督深度估计和目标分割结果;并进一步利用这些结构实现了完整的预测性能提升循环。