Command Palette

Search for a command to run...

5 个月前

细粒度偏好优化改进了VLM中的空间推理能力

Yifan Shen Yuanzhe Liu Jingyuan Zhu Xu Cao Xiaofeng Zhang Yixiao He Wenming Ye James Matthew Rehg Ismini Lourentzou

细粒度偏好优化改进了VLM中的空间推理能力

摘要

当前的视觉-语言模型(VLMs)在细粒度空间推理方面存在困难,尤其是在需要多步骤逻辑和精确空间对齐的情况下。在这项工作中,我们引入了SpatialReasoner-R1,这是一种专门设计用于克服这些限制的视觉-语言推理模型。为了构建高质量的空间推理监督数据,我们设计了一种多模型蒙特卡洛树搜索(Multi-Model Monte Carlo Tree Search, M3CTS)方法,该方法生成多样且逻辑一致的长链思考(Long Chain-of-Thought, LongCoT)推理轨迹。此外,我们提出了细粒度直接偏好优化(fine-grained Direct Preference Optimization, fDPO),通过引入描述性接地和逻辑推理的段落特定偏好粒度,并由评估候选响应的视觉一致性、空间接地和逻辑连贯性的空间奖励机制引导。实验结果表明,fDPO在空间质量任务上比标准DPO平均提高了4.1%,在空间数量任务上提高了9.0%。使用fDPO训练的SpatialReasoner-R1在SPATIALRGPT-Bench基准测试中达到了新的最先进水平(State-of-The-Art, SoTA),其平均准确率比最强基线高9.8%,同时在一般视觉-语言任务中也保持了竞争力。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
细粒度偏好优化改进了VLM中的空间推理能力 | 论文 | HyperAI超神经