Command Palette
Search for a command to run...

摘要
自监督学习有望彻底消除对人工数据标注的依赖,使模型能够无缝扩展至大规模数据集和更大规模的网络架构。由于不针对特定任务或领域进行定制,这种训练范式具备从多样化数据源(从自然图像到航拍图像)中学习视觉表征的潜力,仅需一个统一的算法即可实现。本技术报告介绍了DINOv3,这是迈向这一愿景的重要里程碑,其核心在于采用简单但高效的策略。首先,我们通过精心的数据准备、架构设计与优化,充分实现了数据集规模与模型规模同步扩大的优势。其次,我们提出一种名为“Gram锚定”(Gram anchoring)的新方法,有效解决了长期训练过程中密集特征图性能退化这一长期存在 yet 未被解决的问题。最后,我们引入后处理策略,进一步提升了模型在分辨率、模型规模以及与文本对齐方面的灵活性。结果表明,我们提出的一种多功能视觉基础模型,在无需微调的情况下,于广泛的应用场景中均超越了现有的专用最先进方法。DINOv3能够生成高质量的密集特征,在各类视觉任务中表现出色,显著优于以往的自监督与弱监督基础模型。此外,我们还发布了DINOv3视觉模型系列,旨在通过提供可扩展的解决方案,应对多样化的资源约束与部署场景,推动各类任务与数据集上的技术水平全面提升。