Command Palette

Search for a command to run...

5 个月前

CodeDiffuser:通过VLM生成的代码增强注意力扩散策略以解决指令模糊性

Guang Yin Yitong Li Yixuan Wang Dale McConachie Paarth Shah Kunimatsu Hashimoto Huan Zhang Katherine Liu Yunzhu Li

CodeDiffuser:通过VLM生成的代码增强注意力扩散策略以解决指令模糊性

摘要

自然语言指令在机器人操作任务中通常表现出模糊性和不确定性。例如,指令“将杯子挂在杯架上”可能涉及多种有效动作,如果存在多个杯子和多个分支可供选择的话。现有的基于语言条件的策略通常依赖于端到端模型,这些模型同时处理高层次的语义理解和低层次的动作生成,但由于缺乏模块化和可解释性,可能导致性能不佳。为了解决这些挑战,我们提出了一种新的机器人操作框架,该框架能够完成由潜在模糊的自然语言指定的任务。该框架利用视觉-语言模型(Vision-Language Model, VLM)来解释自然语言指令中的抽象概念,并生成任务特定代码——一种可解释且可执行的中间表示。生成的代码与感知模块接口连接,通过整合空间和语义信息生成3D注意力图,突出显示任务相关区域,从而有效地解决指令中的模糊性问题。通过广泛的实验,我们识别了当前模仿学习方法的关键局限性,如对语言和环境变化的适应能力较差。我们展示了我们的方法在涉及语言模糊性、接触丰富的操作以及多对象交互的复杂操作任务中表现出色。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
CodeDiffuser:通过VLM生成的代码增强注意力扩散策略以解决指令模糊性 | 论文 | HyperAI超神经