Command Palette
Search for a command to run...
Zihao Wang Muyao Li Kaichen He Xiangyu Wang Zhancun Mu Anji Liu Yitao Liang

摘要
动作空间的选择是构建具备端到端可训练能力的智能体过程中一个关键 yet 仍未解决的挑战。本文首次在开放世界《我的世界》(Minecraft)中,对主流的抽象动作空间及分词器(tokenizers)在视觉-语言-动作(Vision-Language-Action, VLA)模型或分层智能体模型中的表现进行了大规模、系统性的比较。我们的分析表明,不存在一种在所有任务中均最优的通用动作空间;相反,最有效的抽象方式高度依赖于具体任务,这为构建通用型智能体带来了根本性困境。为解决这一问题,我们提出一种名为“动作链”(Chain of Action, CoA)的新框架,该框架将高层规划与低层控制统一于单一、统一的VLA模型之中。CoA将抽象动作视为一个中间推理步骤——类似于“思维链”(chain of thought)——而非对独立策略的指令,从而引导最终可执行动作的生成。此外,我们证明了:在CoA范式下,通过混合多种不同动作空间进行训练的“一体化”(All-in-One)智能体,能够学习到更具鲁棒性与泛化能力的策略。该统一智能体在性能上达到了新的最先进水平,显著提升了整体任务成功率,超越了多个强大的专用基线模型。为促进研究的可复现性,我们发布了OpenHA(Open Hierarchical Agents)套件,包含超过800个不同任务的综合性基准测试集、精心整理的数据集、源代码以及所有预训练模型的检查点,详见以下网址:https://example.com。