Command Palette
Search for a command to run...
Zeren Chen Xiaoya Lu Zhijie Zheng Pengrui Li Lehan He Yijin Zhou Jing Shao Bohan Zhuang Lu Sheng

摘要
视觉语言模型(VLMs)在空间推理中存在一个根本性的语义与几何之间的鸿沟:它们在定性语义推理方面表现出色,但其推理过程运行在一个有损的语义空间中,与高保真的几何结构不一致。当前的范式难以弥合这一鸿沟。基于训练的方法面临“预言者悖论”(oracle paradox)——从不完善的“预言者”中学习到有缺陷的空间逻辑;而引入工具的方法虽然限制了最终的计算过程,却未能有效约束VLM的规划阶段,导致生成的规划在几何上存在错误。在本工作中,我们提出几何约束智能体(Geometrically-Constrained Agent, GCA),一种无需训练的智能体范式,通过引入形式化的任务约束来解决这一问题。具体而言,我们战略性地将VLM的角色划分为两个阶段:首先,VLM作为语义分析器,将用户模糊的查询转化为形式化且可验证的任务约束,该约束明确定义了参考坐标系与目标;其次,VLM作为任务求解器,在由该约束所确定的确定性边界内,严格生成并执行工具调用。这种几何约束的推理策略成功填补了语义与几何之间的鸿沟,为空间推理构建了一条稳健且可验证的推理路径。大量实验证明,GCA在多个空间推理基准测试中均达到当前最优(SOTA)性能,相比现有基于训练的方法和工具集成方法,平均提升约27%。