Command Palette

Search for a command to run...

4 天前

几何约束Agent用于空间推理

Zeren Chen Xiaoya Lu Zhijie Zheng Pengrui Li Lehan He Yijin Zhou Jing Shao Bohan Zhuang Lu Sheng

几何约束Agent用于空间推理

摘要

视觉语言模型(VLMs)在空间推理中存在一个根本性的语义与几何之间的鸿沟:它们在定性语义推理方面表现出色,但其推理过程运行在一个有损的语义空间中,与高保真的几何结构不一致。当前的范式难以弥合这一鸿沟。基于训练的方法面临“预言者悖论”(oracle paradox)——从不完善的“预言者”中学习到有缺陷的空间逻辑;而引入工具的方法虽然限制了最终的计算过程,却未能有效约束VLM的规划阶段,导致生成的规划在几何上存在错误。在本工作中,我们提出几何约束智能体(Geometrically-Constrained Agent, GCA),一种无需训练的智能体范式,通过引入形式化的任务约束来解决这一问题。具体而言,我们战略性地将VLM的角色划分为两个阶段:首先,VLM作为语义分析器,将用户模糊的查询转化为形式化且可验证的任务约束,该约束明确定义了参考坐标系与目标;其次,VLM作为任务求解器,在由该约束所确定的确定性边界内,严格生成并执行工具调用。这种几何约束的推理策略成功填补了语义与几何之间的鸿沟,为空间推理构建了一条稳健且可验证的推理路径。大量实验证明,GCA在多个空间推理基准测试中均达到当前最优(SOTA)性能,相比现有基于训练的方法和工具集成方法,平均提升约27%。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供