日期

6 个月前

原生稀疏注意力（Native Sparse Attention，简称 NSA）是由 DeepSeek 联合北京大学、华盛顿大学于 2025 年 2 月 27 日提出的一种原生可训练稀疏注意力机制，旨在解决长序列建模中的计算瓶颈问题。该方法结合了算法创新与硬件优化，实现了高效的长上下文建模。相关论文成果为「Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention」，该论文已获 ACL 25 最佳论文奖。

在 27B 参数的 Transformer 主干模型上进行预训练，NSA 在通用基准、长上下文任务和推理任务上，性能与全连接注意力模型相当或更优。在处理 64k 长度序列时，NSA 在解码、前向传播和反向传播阶段均实现了显著的加速。

门控注意力 Gated Attention

通义千问团队系统地研究了门控机制在标准 softmax 注意力中的作用。

2 个月前

SERES 语义感知稀疏视图重建框架

作为一个新颖的语义感知框架，用于从稀疏视图中重建 3D 模型。

2 个月前

多智能体工作流程 CudaForge

CudaForge 是一个简单有效且低成本的用于 CUDA 内核生成和优化的多智能体工作流程。

2 个月前

多阶段强化学习框架 RewardMap

RewardMap 提升了多模态大语言模型在结构化视觉任务中的能力。

2 个月前

布局控制框架 InstanceAssemble

InstanceAssemble 在多模态条件下推动了高质量且可控的图像生成。

2 个月前

FlashMoBA

FlashMoBA 使理论上最优的小块尺寸变得实用，在 GPU 上实现高达 14.7 倍的加速。

2 个月前

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

HyperAI

日期

6 个月前

门控注意力 Gated Attention

通义千问团队系统地研究了门控机制在标准 softmax 注意力中的作用。

2 个月前

SERES 语义感知稀疏视图重建框架

作为一个新颖的语义感知框架，用于从稀疏视图中重建 3D 模型。

2 个月前

多智能体工作流程 CudaForge

CudaForge 是一个简单有效且低成本的用于 CUDA 内核生成和优化的多智能体工作流程。

2 个月前

多阶段强化学习框架 RewardMap

RewardMap 提升了多模态大语言模型在结构化视觉任务中的能力。

2 个月前

布局控制框架 InstanceAssemble

InstanceAssemble 在多模态条件下推动了高质量且可控的图像生成。

2 个月前

FlashMoBA

FlashMoBA 使理论上最优的小块尺寸变得实用，在 GPU 上实现高达 14.7 倍的加速。

2 个月前

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

用 AI 构建 AI

HyperAI Newsletters

相关百科

门控注意力 Gated Attention

SERES 语义感知稀疏视图重建框架

多智能体工作流程 CudaForge

多阶段强化学习框架 RewardMap

布局控制框架 InstanceAssemble

FlashMoBA

用 AI 构建 AI

HyperAI Newsletters

相关百科

门控注意力 Gated Attention

SERES 语义感知稀疏视图重建框架

多智能体工作流程 CudaForge

多阶段强化学习框架 RewardMap

布局控制框架 InstanceAssemble

FlashMoBA

用 AI 构建 AI

HyperAI Newsletters

相关百科

门控注意力 Gated Attention

SERES 语义感知稀疏视图重建框架

多智能体工作流程 CudaForge

多阶段强化学习框架 RewardMap

布局控制框架 InstanceAssemble

FlashMoBA

相关百科

门控注意力 Gated Attention

SERES 语义感知稀疏视图重建框架

多智能体工作流程 CudaForge

多阶段强化学习框架 RewardMap

布局控制框架 InstanceAssemble

FlashMoBA

Command Palette

原生稀疏注意力 Native Sparse Attention

用 AI 构建 AI

HyperAI Newsletters

Command Palette

原生稀疏注意力 Native Sparse Attention

相关百科

门控注意力 Gated Attention

SERES 语义感知稀疏视图重建框架

多智能体工作流程 CudaForge

多阶段强化学习框架 RewardMap

布局控制框架 InstanceAssemble

FlashMoBA

用 AI 构建 AI

HyperAI Newsletters

Command Palette

原生稀疏注意力 Native Sparse Attention

相关百科

门控注意力 Gated Attention

SERES 语义感知稀疏视图重建框架

多智能体工作流程 CudaForge

多阶段强化学习框架 RewardMap

布局控制框架 InstanceAssemble

FlashMoBA

用 AI 构建 AI

HyperAI Newsletters

相关百科

门控注意力 Gated Attention

SERES 语义感知稀疏视图重建框架

多智能体工作流程 CudaForge

多阶段强化学习框架 RewardMap

布局控制框架 InstanceAssemble

FlashMoBA

相关百科

门控注意力 Gated Attention

SERES 语义感知稀疏视图重建框架

多智能体工作流程 CudaForge

多阶段强化学习框架 RewardMap

布局控制框架 InstanceAssemble

FlashMoBA