HyperAI超神经

摘要

视觉语言模型（VLMs）在空间推理中存在一个根本性的语义与几何之间的鸿沟：它们在定性语义推理方面表现出色，但其推理过程运行在一个有损的语义空间中，与高保真的几何结构不一致。当前的范式难以弥合这一鸿沟。基于训练的方法面临“预言者悖论”（oracle paradox）——从不完善的“预言者”中学习到有缺陷的空间逻辑；而引入工具的方法虽然限制了最终的计算过程，却未能有效约束VLM的规划阶段，导致生成的规划在几何上存在错误。在本工作中，我们提出几何约束智能体（Geometrically-Constrained Agent, GCA），一种无需训练的智能体范式，通过引入形式化的任务约束来解决这一问题。具体而言，我们战略性地将VLM的角色划分为两个阶段：首先，VLM作为语义分析器，将用户模糊的查询转化为形式化且可验证的任务约束，该约束明确定义了参考坐标系与目标；其次，VLM作为任务求解器，在由该约束所确定的确定性边界内，严格生成并执行工具调用。这种几何约束的推理策略成功填补了语义与几何之间的鸿沟，为空间推理构建了一条稳健且可验证的推理路径。大量实验证明，GCA在多个空间推理基准测试中均达到当前最优（SOTA）性能，相比现有基于训练的方法和工具集成方法，平均提升约27%。

摘要

几何约束Agent用于空间推理

Zeren Chen Xiaoya Lu Zhijie Zheng Pengrui Li Lehan He Yijin Zhou Jing Shao Bohan Zhuang Lu Sheng

摘要

用 AI 构建 AI

Hyper Newsletters

几何约束Agent用于空间推理

Zeren Chen Xiaoya Lu Zhijie Zheng Pengrui Li Lehan He Yijin Zhou Jing Shao Bohan Zhuang Lu Sheng

摘要

用 AI 构建 AI

Hyper Newsletters

Command Palette

几何约束Agent用于空间推理

Zeren Chen Xiaoya Lu Zhijie Zheng Pengrui Li Lehan He Yijin Zhou Jing Shao Bohan Zhuang Lu Sheng

摘要

用 AI 构建 AI

Hyper Newsletters

Command Palette

几何约束Agent用于空间推理

Zeren Chen Xiaoya Lu Zhijie Zheng Pengrui Li Lehan He Yijin Zhou Jing Shao Bohan Zhuang Lu Sheng

摘要

用 AI 构建 AI

Hyper Newsletters