Command Palette
Search for a command to run...
Qi Lv Weijie Kong Hao Li Jia Zeng Zherui Qiu Delin Qu Haoming Song Qizhi Chen Xiang Deng Jiangmiao Pang

摘要
在动态视觉环境中执行语言条件任务,仍是具身人工智能领域的一个核心挑战。现有的视觉-语言-动作(Vision-Language-Action, VLA)模型主要采用反应式“状态到动作”的映射机制,往往导致短视行为,并在动态场景中表现出较差的鲁棒性。本文提出F1,一种预训练的VLA框架,将视觉前瞻生成(visual foresight generation)整合进决策流程。F1采用基于Transformer的混合架构,配备专门用于感知、前瞻生成和控制的模块,从而实现理解、生成与动作之间的有机衔接。其核心机制在于引入“多尺度预测”(next-scale prediction)策略,以合成目标条件化的视觉前瞻作为显式的规划目标。通过预测可能的未来视觉状态,F1将动作生成重构为一种由前瞻引导的逆动力学问题,从而生成能够隐式达成视觉目标的动作。为赋予F1强大的泛化能力与鲁棒性,我们在包含136种多样化任务、超过33万条轨迹的大型数据集上,提出了一种三阶段训练方案。该训练策略增强了模块化推理能力,并使模型具备可迁移的视觉前瞻能力,这对于复杂且动态的环境至关重要。在真实世界任务与仿真基准上的大量实验评估表明,F1始终优于现有方法,在任务成功率和泛化能力方面均取得了显著提升。