Command Palette

Search for a command to run...

5 天前

G2^22VLM:具有统一3D重建与空间推理能力的几何引导视觉语言模型

Wenbo Hu Jingli Lin Yilin Long Yunlong Ran Lihan Jiang Yifan Wang Chenming Zhu Runsen Xu Tai Wang Jiangmiao Pang

G$^2$VLM:具有统一3D重建与空间推理能力的几何引导视觉语言模型

摘要

视觉-语言模型(Vision-Language Models, VLMs)在空间智能方面仍缺乏鲁棒性,其在空间理解与推理任务上的表现较差。我们认为这一差距源于缺乏一种能够从二维图像中重建三维空间的视觉几何学习机制。为此,我们提出了G2^22VLM——一种基于几何约束的视觉-语言模型,该模型有效融合了空间智能的两个核心方面:三维空间重建与空间理解。G2^22VLM原生利用学习得到的三维视觉几何特征,通过上下文学习(in-context learning)与交错推理(interleaved reasoning)机制,直接预测三维属性并提升空间推理能力。其统一的设计架构在空间理解任务中具有高度可扩展性:模型在大量多视角图像与视频数据上进行训练,同时充分利用了通常需依赖难获取标注数据才能获得的三维视觉先验信息。实验结果表明,G2^22VLM在两项任务中均表现出色,其三维重建性能可与当前最先进的前馈式三维重建模型相媲美,且在各类空间理解与推理任务中均取得更优或具有竞争力的结果。通过将语义强大的视觉-语言模型与底层三维视觉任务相统一,我们期望G2^22VLM能成为该领域的一个强大基准模型,并推动更多未来应用的发展,例如三维场景编辑。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供