Command Palette

Search for a command to run...

1 天前

作为反探索的视觉-语言-动作模型引导:一种测试时扩展方法

Siyuan Yang Yang Zhang Haoran He Ling Pan Xiu Li Chenjia Bai Xuelong Li

作为反探索的视觉-语言-动作模型引导:一种测试时扩展方法

摘要

视觉-语言-动作(Vision-Language-Action, VLA)模型通过流匹配(flow-matching)或扩散(diffusion)目标进行训练,能够从大规模多模态数据集(如人类远程操控数据、脚本化策略数据)中高效学习复杂行为。然而,由于VLA在预训练阶段融合了多种异构数据模态,而微调阶段所使用的演示数据往往是在运动学上次优或不理想的条件下采集的,因此模型中不可避免地引入了与下游任务成功动作模式无关的冗余动作模式。具体而言,我们观察到在对预训练VLA进行监督微调后,不同采样噪声下的推理过程表现出显著的脆弱性。本文将这一不稳定性归因于VLA策略与下游任务数据集中稳定成功模式所诱导的策略之间的分布偏移。为此,我们提出TACO(Test-Time Action Chunk Optimization),一种测试时缩放(Test-Time Scaling, TTS)框架。该框架引入一个轻量级伪计数估计器(pseudo-count estimator),作为动作片段的高保真验证器。集成TACO的VLA模型在推理阶段可选择所有采样动作片段中伪计数最高的动作,从而在不破坏VLA泛化能力的前提下有效缓解分布偏移问题,且约束仅在推理阶段施加。我们的方法在思想上类似于离线强化学习(Offline RL)中的经典抗探索(anti-exploration)原则,且由于无需梯度更新,相较于强化学习更新策略具有显著的计算优势,尤其适用于难以进行强化学习更新的流匹配或扩散基VLA模型(因其去噪过程复杂,难以实现有效的策略梯度优化)。在四个仿真基准(RoboTwin2.0、Robotwin、LIBERO、SimplerEnv)以及一个双臂机器人平台上的大量实验表明,TACO显著提升了下游任务适应中的推理稳定性与任务成功率。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
作为反探索的视觉-语言-动作模型引导:一种测试时扩展方法 | 论文 | HyperAI超神经