Command Palette

Search for a command to run...

5 个月前

视觉-语言-动作模型综述:从动作分词的角度出发

视觉-语言-动作模型综述:从动作分词的角度出发

摘要

视觉和语言基础模型在多模态理解、推理和生成方面的显著进展激发了越来越多的努力,旨在将这种智能扩展到物理世界,推动了视觉-语言-行动(VLA)模型的蓬勃发展。尽管当前的方法看似多样,我们观察到现有的VLA模型可以统一在一个单一框架下:视觉和语言输入通过一系列VLA模块进行处理,生成一连串的动作标记,这些动作标记逐步编码更加具体和可执行的信息,最终产生可执行的动作。我们进一步确定,区分VLA模型的主要设计选择在于如何制定动作标记,这些标记可以归类为语言描述、代码、可用性(affordance)、轨迹、目标状态、潜在表示(latent representation)、原始动作和推理。然而,目前对于动作标记的理解仍然不够全面,这严重阻碍了有效的VLA开发,并模糊了未来的发展方向。因此,本综述旨在通过动作标记化的视角对现有的VLA研究进行分类和解读,提炼每种标记类型的优势和局限,并识别改进的领域。通过这一系统的回顾和分析,我们提供了对VLA模型更广泛演进的综合展望,突出了尚未充分探索但前景光明的方向,并为未来的研究所贡献指导,希望将该领域推向更加通用的智能。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
视觉-语言-动作模型综述:从动作分词的角度出发 | 论文 | HyperAI超神经