HyperAIHyperAI

Command Palette

Search for a command to run...

SkyPile-150B 综合性大规模中文数据集

在 Discord 上讨论

日期

2 年前

数据集组织

SkyPile-150B 是专门为大型语言模型预训练而设计的综合性大规模中文数据集。它源自大量可公开访问的中国互联网网页。数据集采用严格的过滤、广泛的重复数据删除和彻底的敏感数据过滤来确保其质量。此外,研究人员还利用 fastText 和 BERT 等先进工具来过滤掉低质量的数据。

SkyPile-150B 数据集的公开部分包含大约 2.33 亿个的网页,每个网页平均包含 1,000 多个汉字。该数据集总共包含约 1500 亿个 Token 和 620 GB 的纯文本数据。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供