Command Palette

Search for a command to run...

PD12M 大规模图像-文本数据集

日期

1 年前

大小

34.77 GB

机构

发布地址

source.plus

论文链接

arxiv.org

Public Domain 12M(简称 PD12M)是由 Spawning 于 2024 年创建的一个大规模图像-文本数据集,它包含了 1240 万张高质量的公共领域及 CC0 许可图片,这些图片搭配了合成字幕,主要用于训练文本到图像的模型。 PD12M 是目前最大的公共领域图像-文本数据集,以其庞大的规模和明确的版权声明,为 AI 模型的训练提供了坚实的基础,同时最小化了版权担忧。相关论文成果为「Public Domain 12M: A Highly Aesthetic Image-Text Dataset with Novel Governance Mechanisms」。

PD12M 的数据来源包括画廊、图书馆、档案馆、博物馆 (GLAM) 以及 Wikimedia Commons 等,通过精心筛选和治理,确保了数据的质量和安全性。数据集的构建过程涵盖了从图像收集、版权验证、图像下载、内容过滤到字幕生成等多个步骤。 PD12M 还通过 Source.Plus 平台引入了社区驱动的数据治理机制,以支持数据集的持续改进和维护。

此外,PD12M 的应用领域广泛,主要用于训练和评估文本到图像生成模型,旨在推动计算机视觉和自然语言处理领域的发展。该数据集不仅为 AI 领域提供了丰富的训练资源,也为负责任的 AI 实践提供了范例,促进了公共 AI 资源的保护和利用

PD12M.torrent
做种 1正在下载 0已完成 142总下载次数 213
  • PD12M/
    • README.md
      2.02 KB
    • README.txt
      4.05 KB
      • data/
        • PD12M.zip
          34.77 GB

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
PD12M 大规模图像-文本数据集 | 数据集 | HyperAI超神经