HyperAI超神经

摘要

我们推出Llama-Nemotron系列模型，这是一组开源的异构推理模型家族，具备卓越的推理能力、高效的推理性能，并提供适用于企业用途的开放许可。该系列包含三种规模：Nano（80亿参数）、Super（490亿参数）和Ultra（2530亿参数），其性能在与当前顶尖推理模型（如DeepSeek-R1）相媲美之余，还展现出更优的推理吞吐量与内存效率。在本报告中，我们详细介绍这些模型的训练流程：首先基于Llama 3模型进行神经架构搜索，以实现加速推理；随后通过知识蒸馏与持续预训练，再进入以推理能力为核心的后训练阶段，该阶段包含两个主要部分：监督微调与大规模强化学习。Llama-Nemotron模型是首个支持动态推理切换的开源模型，用户可在推理过程中自由在标准对话模式与推理模式之间切换。为进一步推动开源研究并促进模型开发，我们提供以下资源：1. 我们在商业友好型的NVIDIA开放模型许可协议（NVIDIA Open Model License Agreement）下，发布Llama-Nemotron推理模型——LN-Nano、LN-Super与LN-Ultra；2. 我们发布完整的后训练数据集：Llama-Nemotron-Post-Training-Dataset；3. 我们还开源了训练代码库：NeMo、NeMo-Aligner与Megatron-LM。

摘要

Llama-Nemotron：高效推理模型

Akhiad Bercovich Itay Levy Izik Golan Mohammad Dabbah Ran El-Yaniv Omri Puny Ido Galil et al

摘要

用 AI 构建 AI

Hyper Newsletters

Llama-Nemotron：高效推理模型

Akhiad Bercovich Itay Levy Izik Golan Mohammad Dabbah Ran El-Yaniv Omri Puny Ido Galil et al

摘要

用 AI 构建 AI

Hyper Newsletters

Command Palette

Llama-Nemotron：高效推理模型

Akhiad Bercovich Itay Levy Izik Golan Mohammad Dabbah Ran El-Yaniv Omri Puny Ido Galil et al

摘要

用 AI 构建 AI

Hyper Newsletters

Command Palette

Llama-Nemotron：高效推理模型

Akhiad Bercovich Itay Levy Izik Golan Mohammad Dabbah Ran El-Yaniv Omri Puny Ido Galil et al

摘要

用 AI 构建 AI

Hyper Newsletters