Command Palette

Search for a command to run...

1 个月前

空间-SSRL:通过自监督强化学习增强空间理解

Yuhong Liu Beichen Zhang Yuhang Zang Yuhang Cao Long Xing Xiaoyi Dong Haodong Duan Dahua Lin Jiaqi Wang

空间-SSRL:通过自监督强化学习增强空间理解

摘要

空间理解仍是大型视觉语言模型(LVLMs)的薄弱环节。现有的监督微调(SFT)方法以及近期的可验证奖励强化学习(RLVR)流程,均依赖于成本高昂的标注、专用工具或受限环境,限制了其可扩展性。为此,我们提出 Spatial-SSRL——一种自监督强化学习范式,能够直接从普通的RGB或RGB-D图像中提取可验证的信号。Spatial-SSRL 自动构建五项预训练任务,用以捕捉二维与三维空间结构:打乱图像块的重排序、翻转图像块的识别、裁剪区域的图像修复、区域深度顺序判断,以及相对三维位置预测。这些任务提供易于验证的真值答案,无需人工标注或LVLM参与标注。在这些任务上进行训练,显著提升了模型的空间推理能力,同时保持了其通用视觉理解性能。在图像与视频场景下的七个空间理解基准测试中,Spatial-SSRL 相较于 Qwen2.5-VL 基线模型,分别实现了平均准确率提升 4.63%(3B 模型)和 3.89%(7B 模型)。结果表明,简单而内在的自监督机制可实现大规模的RLVR,为提升LVLMs的空间智能提供了一条切实可行的路径。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
空间-SSRL:通过自监督强化学习增强空间理解 | 论文 | HyperAI超神经