2 天前

Hong Liu Jiaqi Zhang Chao Wang Xing Hu Linkun Lyu Jiaqi Sun Xurui Yang Bo Wang Fengcun Li Yulei Qian

摘要

尽管混合专家（Mixture-of-Experts, MoE）架构已成为大规模语言模型中实现稀疏性扩展的标准方案，但其正面临收益递减及系统级瓶颈的挑战。在本工作中，我们探索将嵌入（embedding）扩展作为提升稀疏性扩展能力的一个强大且正交的维度。通过全面的分析与实验，我们识别出在特定场景下，嵌入扩展相较于专家扩展能够实现更优的帕累托前沿（Pareto frontier）。我们系统地刻画了决定该方法有效性的关键架构因素——从参数预算分配，到与模型宽度和深度之间的相互作用。此外，通过引入定制化的系统优化技术与推测性解码（speculative decoding），我们成功将这种稀疏性转化为实际的推理加速效果。基于上述洞见，我们提出了 LongCat-Flash-Lite，一个参数量达685亿（68.5B）且激活参数约30亿（3B）的全新模型，该模型从零开始训练。尽管分配了超过300亿参数用于嵌入层，LongCat-Flash-Lite 不仅在参数量相当的 MoE 基线模型中表现更优，还在与同类规模模型的对比中展现出卓越的竞争力，尤其在智能体（agentic）任务与代码生成（coding）领域表现突出。

一句话总结

美团LongCat团队推出LongCat-Flash-Lite，一款拥有685亿参数、激活参数约30亿的稀疏模型，通过嵌入扩展而非专家扩展实现更优的效率与性能，在代理和编程任务中表现卓越，辅以系统优化与推测解码技术。

主要贡献

我们证明，嵌入扩展（特别是通过N-gram嵌入）在特定场景下可超越专家扩展，通过高效扩展参数容量而不引入MoE架构的路由开销，实现更优的帕累托前沿。
我们系统分析了影响嵌入扩展效能的架构因素——包括参数预算、词汇表大小、初始化方式及其与模型宽度和深度的交互——并确定N-gram嵌入在各种配置下是最稳健的策略。
通过集成推测解码及定制系统优化（如N-gram缓存与同步内核），我们将嵌入稀疏性转化为可测量的推理加速，验证了LongCat-Flash-Lite（685亿参数，激活参数约30亿）优于MoE基线模型，并在代理和编程任务中表现突出。

引言

作者采用嵌入扩展作为MoE的替代方案，用于扩展大语言模型的稀疏参数，以解决专家扩展带来的收益递减和系统瓶颈问题。先前研究较少探索嵌入扩展与专家扩展在效率上的对比、宽度/深度/词汇表大小等架构选择如何影响其性能，以及如何优化嵌入扩展后的推理效率。本文的主要贡献是一个系统性框架，识别嵌入扩展优于专家扩展的场景，刻画关键架构权衡，并引入系统级优化（包括推测解码与定制内核），将稀疏嵌入优势转化为实际推理加速。我们通过LongCat-Flash-Lite（685亿参数，其中嵌入层占300亿+参数）验证了该框架，该模型优于MoE基线，并在代理与编程任务中可与更大模型竞争。

方法

作者采用一种新颖的N-gram嵌入架构，在保持计算与内存效率的同时高效扩展模型参数。该框架集成基础嵌入表与扩展的n-gram嵌入分支，实现无需词汇表的token序列表示。基础嵌入分支使用标准嵌入表 $E_0$ 将单个token映射为嵌入向量。并行地，N-gram嵌入分支处理最大阶数为 $N$ 的token序列，使用哈希函数将n-gram映射到子表。对于每个token $t_i$ ，增强嵌入 $e_i$ 由基础嵌入与2至 $N$ 阶n-gram嵌入贡献的加权平均计算得出。每个n-gram嵌入进一步分解为 $K$ 个子表，每个子表 $E_{n,k}$ 维度降低，并通过线性投影矩阵 $W_{n,k}$ 投影回完整嵌入空间。此设计确保总参数量与 $N$ 和 $K$ 无关，同时增强模型表达能力并减少哈希冲突。

N-gram嵌入机制将参数从MoE层重分配至嵌入空间，减少推理期间激活参数数量。这种架构转变在内存I/O受限的解码场景中尤为有益，允许在不增加MoE层计算负载的前提下使用更大的有效批大小。嵌入层尺寸增加不会影响延迟，因为嵌入查找量随输入token数而非总参数量线性增长。为最大化硬件利用率，模型采用推测解码，有效扩大有效批大小，将参数稀疏性的理论优势转化为实际推理加速。

为应对N-gram嵌入引入的额外开销，作者提出 $N$ -gram缓存，一种受KV缓存启发的专用缓存机制。该缓存直接在设备上管理N-gram ID，使用定制CUDA内核实现与推理优化技术的低开销同步。在推测解码场景中，草稿模型层数更少、延迟更低，作者提出两项互补优化：为草稿模型使用常规嵌入层以跳过昂贵的n-gram查找，以及在草稿阶段缓存n-gram嵌入以消除验证阶段的冗余计算。这些优化共同降低延迟并提升推测推理场景的吞吐量。

除硬件效率外，作者还探索N-gram嵌入与推测解码的协同效应。N-gram嵌入结构天然编码丰富的局部上下文与token共现信息，可进一步加速推理。两个有前景的方向被识别：基于N-gram嵌入的草稿生成（将N-gram嵌入重用为超快速草稿模型）和早期拒绝（利用N-gram嵌入表示作为语义一致性检查，提前剪枝低概率草稿token）。这些策略为优化端到端延迟提供了路径。

基于Per-Layer Embedding（PLE）方法，作者提出Per-Layer N-gram Embedding（PLNE），在每层以N-gram嵌入输出替代基础嵌入输出。此扩展在MoE框架内实现更灵活、有针对性的参数扩展。带PLNE的FFN输出形式化为 $\mathrm{FFN}^{(l)}(x_i) = W_d^{(l)} \big( \mathrm{SiLU}(W_\alpha^{(l)} x_i^{(l)}) \odot e_i^{(l)} \big)$ ，其中 $e_i^{(l)}$ 根据N-gram嵌入公式计算，使用层特定嵌入表与投影矩阵。该设计允许更精细的参数分配控制，并增强模型捕捉局部上下文的能力。

实验

N-gram嵌入扩展仅在专家数量超过“甜点”后引入时优于专家扩展，高稀疏度下（如13亿激活参数）表现最佳，可在比例高达50时实现比MoE基线更低的损失。
将>50%总参数分配给N-gram嵌入会降低性能；最优分配上限约50%，与同期研究中观察到的U型损失曲线一致。
N-gram嵌入的词汇表大小应避免为基词汇表大小的整数倍，以最小化哈希冲突，对2-gram哈希尤为关键。
N-gram阶数N=3–5且子表K≥2时性能接近最优；最小设置（N=2, K=1）显著表现不佳。
嵌入放大（通过缩放因子√D或LayerNorm）通过防止残差分支信号抑制，在所有数据划分上降低训练损失0.02。
更宽模型（7.9亿–13亿激活参数）扩展了N-gram嵌入的有效窗口，即使在高参数比例下仍保持优势；更深模型（>20层）削弱其相对增益。
LongCat-Flash-Lite（增强N-gram嵌入）在MMLU、C-Eval、GSM8K、HumanEval+等基准测试中优于纯MoE基线，验证嵌入扩展的有效性。
LongCat-Flash-Lite在代理工具使用（τ²-Bench: 72.8–73.1；VitaBench: 7.00）与编程（SWE-Bench: 54.4；TerminalBench: 33.75）任务中表现优异，超越Qwen3-Next-80B、Gemini 2.5 Flash-Lite及Kimi-Linear-48B-A3B。
在数学推理（MATH500: 96.80；AIME24: 72.19）与通用知识（MMLU: 85.52；CEval: 86.55）方面表现强劲，展现参数高效下的广泛能力。

作者使用柱状图比较不同层数（10、20、40层）模型在训练与验证任务中的损失降低情况。结果显示，10层模型在训练与中文验证中损失降低最高，而40层模型在英文验证中表现最佳，表明更深模型可能对某些验证任务更有效。

作者比较不同模型变体在训练与验证损失上的表现，显示NE-10B在训练损失上最低，NE-12B在中文与英文验证损失上均最低。结果表明，将模型规模从100亿增至120亿参数可提升验证性能，NE-12B在所有指标上优于PLE-10B与PLNE-12B。

作者比较LongCat-Flash-Lite-Vanilla与LongCat-Flash-Lite模型在多个基准测试中的表现，显示LongCat-Flash-Lite在通用、推理与编程领域多数任务中得分更高。这表明所提出的N-gram嵌入扩展方法优于基线。

结果表明，N-gram嵌入扩展在高稀疏度下优于专家扩展，但随着参数比例超过某阈值，性能优势逐渐减弱。N-gram嵌入的最佳集成发生在专家数量超过阈值时，其优势在更宽模型中更显著，而更深模型会削弱其相对优势。

作者将采用N-gram嵌入扩展的LongCat-Flash-Lite与多个前沿模型在多能力领域进行对比。结果显示，LongCat-Flash-Lite在代理工具使用与编程任务中表现卓越，超越Qwen3-Next-80B-A3B-Instruct与Gemini 2.5 Flash-Lite等模型，同时在通用知识与数学推理基准中保持竞争力。这表明通过N-gram嵌入扩展总参数可有效增强模型能力，尤其在实际应用场景中。

源 PDF

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

2 天前

Hong Liu Jiaqi Zhang Chao Wang Xing Hu Linkun Lyu Jiaqi Sun Xurui Yang Bo Wang Fengcun Li Yulei Qian

摘要

一句话总结

主要贡献

我们证明，嵌入扩展（特别是通过N-gram嵌入）在特定场景下可超越专家扩展，通过高效扩展参数容量而不引入MoE架构的路由开销，实现更优的帕累托前沿。
我们系统分析了影响嵌入扩展效能的架构因素——包括参数预算、词汇表大小、初始化方式及其与模型宽度和深度的交互——并确定N-gram嵌入在各种配置下是最稳健的策略。
通过集成推测解码及定制系统优化（如N-gram缓存与同步内核），我们将嵌入稀疏性转化为可测量的推理加速，验证了LongCat-Flash-Lite（685亿参数，激活参数约30亿）优于MoE基线模型，并在代理和编程任务中表现突出。

引言

方法

实验

N-gram嵌入扩展仅在专家数量超过“甜点”后引入时优于专家扩展，高稀疏度下（如13亿激活参数）表现最佳，可在比例高达50时实现比MoE基线更低的损失。
将>50%总参数分配给N-gram嵌入会降低性能；最优分配上限约50%，与同期研究中观察到的U型损失曲线一致。
N-gram嵌入的词汇表大小应避免为基词汇表大小的整数倍，以最小化哈希冲突，对2-gram哈希尤为关键。
N-gram阶数N=3–5且子表K≥2时性能接近最优；最小设置（N=2, K=1）显著表现不佳。
嵌入放大（通过缩放因子√D或LayerNorm）通过防止残差分支信号抑制，在所有数据划分上降低训练损失0.02。
更宽模型（7.9亿–13亿激活参数）扩展了N-gram嵌入的有效窗口，即使在高参数比例下仍保持优势；更深模型（>20层）削弱其相对增益。
LongCat-Flash-Lite（增强N-gram嵌入）在MMLU、C-Eval、GSM8K、HumanEval+等基准测试中优于纯MoE基线，验证嵌入扩展的有效性。
LongCat-Flash-Lite在代理工具使用（τ²-Bench: 72.8–73.1；VitaBench: 7.00）与编程（SWE-Bench: 54.4；TerminalBench: 33.75）任务中表现优异，超越Qwen3-Next-80B、Gemini 2.5 Flash-Lite及Kimi-Linear-48B-A3B。
在数学推理（MATH500: 96.80；AIME24: 72.19）与通用知识（MMLU: 85.52；CEval: 86.55）方面表现强劲，展现参数高效下的广泛能力。

源 PDF

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

扩展嵌入空间在语言模型中的表现优于扩展专家模型

Hong Liu Jiaqi Zhang Chao Wang Xing Hu Linkun Lyu Jiaqi Sun Xurui Yang Bo Wang Fengcun Li Yulei Qian6 more

摘要

一句话总结

主要贡献

引言

方法

实验

用 AI 构建 AI

HyperAI Newsletters

Command Palette

扩展嵌入空间在语言模型中的表现优于扩展专家模型

Hong Liu Jiaqi Zhang Chao Wang Xing Hu Linkun Lyu Jiaqi Sun Xurui Yang Bo Wang Fengcun Li Yulei Qian6 more

摘要

一句话总结

主要贡献

引言

方法

实验

用 AI 构建 AI

HyperAI Newsletters

Command Palette

扩展嵌入空间在语言模型中的表现优于扩展专家模型

Hong Liu Jiaqi Zhang Chao Wang Xing Hu Linkun Lyu Jiaqi Sun Xurui Yang Bo Wang Fengcun Li Yulei Qian6 more

摘要

一句话总结

主要贡献

引言

方法

实验

用 AI 构建 AI

HyperAI Newsletters

Hong Liu Jiaqi Zhang Chao Wang Xing Hu Linkun Lyu Jiaqi Sun Xurui Yang Bo Wang Fengcun Li Yulei Qian

Hong Liu Jiaqi Zhang Chao Wang Xing Hu Linkun Lyu Jiaqi Sun Xurui Yang Bo Wang Fengcun Li Yulei Qian

Hong Liu Jiaqi Zhang Chao Wang Xing Hu Linkun Lyu Jiaqi Sun Xurui Yang Bo Wang Fengcun Li Yulei Qian