HyperAI

摘要

当前的视觉-语言模型（VLMs）在细粒度空间推理方面存在困难，尤其是在需要多步骤逻辑和精确空间对齐的情况下。在这项工作中，我们引入了SpatialReasoner-R1，这是一种专门设计用于克服这些限制的视觉-语言推理模型。为了构建高质量的空间推理监督数据，我们设计了一种多模型蒙特卡洛树搜索（Multi-Model Monte Carlo Tree Search, M3CTS）方法，该方法生成多样且逻辑一致的长链思考（Long Chain-of-Thought, LongCoT）推理轨迹。此外，我们提出了细粒度直接偏好优化（fine-grained Direct Preference Optimization, fDPO），通过引入描述性接地和逻辑推理的段落特定偏好粒度，并由评估候选响应的视觉一致性、空间接地和逻辑连贯性的空间奖励机制引导。实验结果表明，fDPO在空间质量任务上比标准DPO平均提高了4.1%，在空间数量任务上提高了9.0%。使用fDPO训练的SpatialReasoner-R1在SPATIALRGPT-Bench基准测试中达到了新的最先进水平（State-of-The-Art, SoTA），其平均准确率比最强基线高9.8%，同时在一般视觉-语言任务中也保持了竞争力。

摘要

细粒度偏好优化改进了VLM中的空间推理能力

Yifan Shen Yuanzhe Liu Jingyuan Zhu Xu Cao Xiaofeng Zhang Yixiao He Wenming Ye James Matthew Rehg Ismini Lourentzou

摘要

代码仓库

用 AI 构建 AI

Hyper Newsletters

细粒度偏好优化改进了VLM中的空间推理能力

Yifan Shen Yuanzhe Liu Jingyuan Zhu Xu Cao Xiaofeng Zhang Yixiao He Wenming Ye James Matthew Rehg Ismini Lourentzou

摘要

代码仓库

用 AI 构建 AI

Hyper Newsletters

Command Palette

细粒度偏好优化改进了VLM中的空间推理能力

Yifan Shen Yuanzhe Liu Jingyuan Zhu Xu Cao Xiaofeng Zhang Yixiao He Wenming Ye James Matthew Rehg Ismini Lourentzou

摘要

代码仓库

用 AI 构建 AI

Hyper Newsletters

Command Palette

细粒度偏好优化改进了VLM中的空间推理能力

Yifan Shen Yuanzhe Liu Jingyuan Zhu Xu Cao Xiaofeng Zhang Yixiao He Wenming Ye James Matthew Rehg Ismini Lourentzou

摘要

代码仓库

用 AI 构建 AI

Hyper Newsletters