Command Palette

Search for a command to run...

4 个月前

villa-X:提升视觉-语言-动作模型中的潜在动作建模

villa-X:提升视觉-语言-动作模型中的潜在动作建模

摘要

视觉-语言-动作(Visual-Language-Action, VLA)模型已成为一种流行范式,用于学习能够理解语言指令并泛化至新场景的机器人操作策略。近期研究开始探索将“潜在动作”(latent actions)——即两帧之间视觉变化的抽象表示——引入VLA的预训练过程。在本文中,我们提出了villa-X,一种新型的视觉-语言-潜在动作(ViLLA)框架,该框架在学习可泛化的机器人操作策略方面,显著推进了潜在动作建模的发展。我们的方法在潜在动作的学习方式及其融入VLA预训练的机制两方面均进行了改进。结合这些贡献,villa-X在多个模拟环境(包括SIMPLER和LIBERO)以及两种真实机器人平台(涵盖夹爪与灵巧手操作)上均取得了卓越性能。我们相信,ViLLA范式具有巨大潜力,而villa-X为未来的研究奠定了坚实基础。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供