Command Palette
Search for a command to run...
Yuhong Liu Beichen Zhang Yuhang Zang Yuhang Cao Long Xing Xiaoyi Dong Haodong Duan Dahua Lin Jiaqi Wang

摘要
空间理解仍是大型视觉语言模型(LVLMs)的薄弱环节。现有的监督微调(SFT)方法以及近期的可验证奖励强化学习(RLVR)流程,均依赖于成本高昂的标注、专用工具或受限环境,限制了其可扩展性。为此,我们提出 Spatial-SSRL——一种自监督强化学习范式,能够直接从普通的RGB或RGB-D图像中提取可验证的信号。Spatial-SSRL 自动构建五项预训练任务,用以捕捉二维与三维空间结构:打乱图像块的重排序、翻转图像块的识别、裁剪区域的图像修复、区域深度顺序判断,以及相对三维位置预测。这些任务提供易于验证的真值答案,无需人工标注或LVLM参与标注。在这些任务上进行训练,显著提升了模型的空间推理能力,同时保持了其通用视觉理解性能。在图像与视频场景下的七个空间理解基准测试中,Spatial-SSRL 相较于 Qwen2.5-VL 基线模型,分别实现了平均准确率提升 4.63%(3B 模型)和 3.89%(7B 模型)。结果表明,简单而内在的自监督机制可实现大规模的RLVR,为提升LVLMs的空间智能提供了一条切实可行的路径。