HyperAI超神经

摘要

视觉-语言-动作（Visual-Language-Action, VLA）模型已成为一种流行范式，用于学习能够理解语言指令并泛化至新场景的机器人操作策略。近期研究开始探索将“潜在动作”（latent actions）——即两帧之间视觉变化的抽象表示——引入VLA的预训练过程。在本文中，我们提出了villa-X，一种新型的视觉-语言-潜在动作（ViLLA）框架，该框架在学习可泛化的机器人操作策略方面，显著推进了潜在动作建模的发展。我们的方法在潜在动作的学习方式及其融入VLA预训练的机制两方面均进行了改进。结合这些贡献，villa-X在多个模拟环境（包括SIMPLER和LIBERO）以及两种真实机器人平台（涵盖夹爪与灵巧手操作）上均取得了卓越性能。我们相信，ViLLA范式具有巨大潜力，而villa-X为未来的研究奠定了坚实基础。

villa-X：提升视觉-语言-动作模型中的潜在动作建模

Xiaoyu Chen Hangxing Wei Pushi Zhang Chuheng Zhang Kaixin Wang Yanjiang Guo Rushuai Yang Yucen Wang Xinquan Xiao Li Zhao

摘要

代码仓库

用 AI 构建 AI

Hyper Newsletters

villa-X：提升视觉-语言-动作模型中的潜在动作建模

Xiaoyu Chen Hangxing Wei Pushi Zhang Chuheng Zhang Kaixin Wang Yanjiang Guo Rushuai Yang Yucen Wang Xinquan Xiao Li Zhao

摘要

代码仓库

用 AI 构建 AI

Hyper Newsletters

Command Palette

villa-X：提升视觉-语言-动作模型中的潜在动作建模

Xiaoyu Chen Hangxing Wei Pushi Zhang Chuheng Zhang Kaixin Wang Yanjiang Guo Rushuai Yang Yucen Wang Xinquan Xiao Li Zhao2 more

摘要

代码仓库

用 AI 构建 AI

Hyper Newsletters

Command Palette

villa-X：提升视觉-语言-动作模型中的潜在动作建模

Xiaoyu Chen Hangxing Wei Pushi Zhang Chuheng Zhang Kaixin Wang Yanjiang Guo Rushuai Yang Yucen Wang Xinquan Xiao Li Zhao2 more

摘要

代码仓库

用 AI 构建 AI

Hyper Newsletters

Xiaoyu Chen Hangxing Wei Pushi Zhang Chuheng Zhang Kaixin Wang Yanjiang Guo Rushuai Yang Yucen Wang Xinquan Xiao Li Zhao

Xiaoyu Chen Hangxing Wei Pushi Zhang Chuheng Zhang Kaixin Wang Yanjiang Guo Rushuai Yang Yucen Wang Xinquan Xiao Li Zhao