HyperAIHyperAI

Command Palette

Search for a command to run...

Nemotron-CC-v2 预训练数据集

在 Discord 上讨论

日期

5 个月前

数据集组织

NVIDIA(英伟达)

论文 URL

2508.14444

许可证

Other

标签

Nemotron-CC-v2 是由英伟达于 2025 年发布的基于 Nemotron-CC 的后续版本,相关论文成果为「NVIDIA Nemotron Nano 2: An Accurate and Efficient Hybrid Mamba-Transformer Reasoning Model」。

该数据集在原有英文网页语料基础上,新增了 2024–2025 年的 8 个 Common Crawl 快照,并进行全局去重与英文过滤;同时使用 Qwen3-30B-A3B 对网页内容进行合成重述,并补充多样化问答(Diverse QA),进一步翻译到 15 种语言,用于强化多语言逻辑推理与通用知识预训练。其意义在于将「高质量英文网页 → 合成多样化问答」的有效做法,结合更新的网页抓取与多语言扩展系统化推到新阶段,并通过严格去重、过滤与可复现的发布,便于直接集成到各类预训练管线。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供