HyperAIHyperAI

Command Palette

Search for a command to run...

原生稀疏注意力 Native Sparse Attention

日期

6 个月前

原生稀疏注意力(Native Sparse Attention,简称 NSA)是由 DeepSeek 联合北京大学、华盛顿大学于 2025 年 2 月 27 日提出的一种原生可训练稀疏注意力机制,旨在解决长序列建模中的计算瓶颈问题。该方法结合了算法创新与硬件优化,实现了高效的长上下文建模。相关论文成果为「Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention」,该论文已获 ACL 25 最佳论文奖。

在 27B 参数的 Transformer 主干模型上进行预训练,NSA 在通用基准、长上下文任务和推理任务上,性能与全连接注意力模型相当或更优。在处理 64k 长度序列时,NSA 在解码、前向传播和反向传播阶段均实现了显著的加速。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供