HyperAIHyperAI

Command Palette

Search for a command to run...

Nemotron-Pretraining-SFT-v1 监督式微调数据集

在 Discord 上讨论

日期

5 个月前

数据集组织

NVIDIA(英伟达)

论文 URL

2508.14444

许可证

Other

标签

Nemotron-Pretraining-SFT-v1 是英伟达于 2025 年发布的一个合成生成数据集,相关的论文成果为「NVIDIA Nemotron Nano 2: An Accurate and Efficient Hybrid Mamba-Transformer Reasoning Model」,旨在强化模型在指令跟随、推理、代码与通识问答等任务上的能力。

该数据集面向 STEM 、学术、逻辑推理与多语言场景,由高质量数学和科学素材扩展生成,并结合研究生层级的学术文本与已指令微调的 SFT 数据,构造出复杂多选题与解析题(含完整解答/思路),覆盖数学、代码、通识与逻辑推理等多类任务。

在 Nemotron 预训练数据的官方统计中,SFT 相关类别(如 Math SFT 、 Code SFT 、 General SFT)占据显著比例,便于用户按元数据筛选需要的子集进行复现实验。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供