Command Palette

Search for a command to run...

COYO-700M 图像-文本对数据集

日期

2 年前

大小

104.46 GB

机构

发布地址

github.com

标签

Featured Image

COYO-700M 是一个大型数据集,包含 7.47 亿个图像文本对以及许多其他元属性,以提高训练各种模型的可用性。该数据集遵循与以前的视觉和语言数据集类似的策略,收集 HTML 文档中许多信息丰富的替代文本及其相关图像对。

数据收集过程

从 2020 年 10 月到 2021 年 8 月,研究团队在 CommonCrawl 中收集了大约 100 亿对 HTML 文档中的替代文本和图像源,并通过图像和文本级别的过滤过程以最小的成本消除了无信息对。图中概述了研究团队的数据收集过程。

coyo-700m.torrent
做种 1正在下载 0已完成 151总下载次数 342
  • coyo-700m/
    • README.md
      1.32 KB
    • README.txt
      2.63 KB
      • data/
        • coyo-700m.zip
          104.46 GB

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供