Command Palette

Search for a command to run...

4 个月前

DINOv3

DINOv3

摘要

自监督学习有望彻底消除对人工数据标注的依赖,使模型能够无缝扩展至大规模数据集和更大规模的网络架构。由于不针对特定任务或领域进行定制,这种训练范式具备从多样化数据源(从自然图像到航拍图像)中学习视觉表征的潜力,仅需一个统一的算法即可实现。本技术报告介绍了DINOv3,这是迈向这一愿景的重要里程碑,其核心在于采用简单但高效的策略。首先,我们通过精心的数据准备、架构设计与优化,充分实现了数据集规模与模型规模同步扩大的优势。其次,我们提出一种名为“Gram锚定”(Gram anchoring)的新方法,有效解决了长期训练过程中密集特征图性能退化这一长期存在 yet 未被解决的问题。最后,我们引入后处理策略,进一步提升了模型在分辨率、模型规模以及与文本对齐方面的灵活性。结果表明,我们提出的一种多功能视觉基础模型,在无需微调的情况下,于广泛的应用场景中均超越了现有的专用最先进方法。DINOv3能够生成高质量的密集特征,在各类视觉任务中表现出色,显著优于以往的自监督与弱监督基础模型。此外,我们还发布了DINOv3视觉模型系列,旨在通过提供可扩展的解决方案,应对多样化的资源约束与部署场景,推动各类任务与数据集上的技术水平全面提升。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
DINOv3 | 论文 | HyperAI超神经