日期

2 个月前

组织

论文 URL

1b7whO4SfY

标签

人工智能

Gated Attention 是由阿里通义千问团队联合爱丁堡大学、斯坦福大学等高校的研究团队于 2025 年 5 月提出的，相关研究成果发表于论文「Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free」，获 NeurIPS 2025 最佳论文奖。

研究团队通过大规模实验（涵盖 15B MoE 与 1.7B 密集模型的 30 个变体，在 3.5T token 上训练）系统研究了一系列门控增强的 softmax 注意力变体。研究发现，仅需在缩放点积注意力（SDPA）之后应用一个特定头的 sigmoid 门控，即可稳定提升模型性能。该成果突出了门控机制对标准注意力层中模型性能和行为的影响，通过评估门控变体，揭示了它们引入非线性、稀疏性并消除注意力陷阱的能力。这些发现加深了业界对门控注意力机制的理解。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

HyperAI

日期

2 个月前

组织

论文 URL

1b7whO4SfY

标签

人工智能

布局控制框架 InstanceAssemble

InstanceAssemble 在多模态条件下推动了高质量且可控的图像生成。

2 个月前

组方差策略优化 GVPO

基于 GRPO 等微调技术现有局限性，GVPO 作为一种可靠、多功能的后训练范式应运而生。

3 个月前

判别式约束优化框架 DisCO

一种新的基于原则的判别约束优化框架，避免了难度偏差和训练不稳定性。

2 个月前

多编程语言 MoE 架构：MultiPL-MoE

MultiPL-MoE 是后预训练阶段扩展低源编程语言的一种有效方法。

2 个月前

Cache-to-Cache（C2C）

C2C 通过转换和融合模型间的键值（KV）缓存，实现直接的语义交流。

2 个月前

猜测-思考-回答 Guess–Think–Answer

GTA 在多个文本分类基准测试中均显著优于标准 SFT 基线和最先进的 RL 方法。

3 个月前

DexFlyWheel 数据生成框架

DexFlyWheel 是一个用于灵巧操作的、可扩展且自我改进的数据生成范式。

3 个月前

DiDi-Instruct 后训练方法

首个成功将分布匹配蒸馏应用于基于 MDM 的文本生成，并在少步语言序列生成方面创下纪录的框架。

2 个月前

指数-高斯混合网络 EGMN

EGMN 成功捕捉了用户偏好和视频特征之间的潜在交互效应。

2 个月前

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

门控注意力 Gated Attention | Wiki | HyperAI超神经

Command Palette

门控注意力 Gated Attention

用 AI 构建 AI

HyperAI Newsletters

Command Palette

门控注意力 Gated Attention

相关百科

布局控制框架 InstanceAssemble

组方差策略优化 GVPO

判别式约束优化框架 DisCO

多编程语言 MoE 架构：MultiPL-MoE

Cache-to-Cache（C2C）

猜测-思考-回答 Guess–Think–Answer

DexFlyWheel 数据生成框架

DiDi-Instruct 后训练方法

指数-高斯混合网络 EGMN

用 AI 构建 AI

HyperAI Newsletters

Command Palette

门控注意力 Gated Attention

相关百科

布局控制框架 InstanceAssemble

组方差策略优化 GVPO

判别式约束优化框架 DisCO

多编程语言 MoE 架构：MultiPL-MoE

Cache-to-Cache（C2C）

猜测-思考-回答 Guess–Think–Answer

DexFlyWheel 数据生成框架

DiDi-Instruct 后训练方法

指数-高斯混合网络 EGMN

用 AI 构建 AI

HyperAI Newsletters

相关百科

布局控制框架 InstanceAssemble

组方差策略优化 GVPO

判别式约束优化框架 DisCO

多编程语言 MoE 架构：MultiPL-MoE

Cache-to-Cache（C2C）

猜测-思考-回答 Guess–Think–Answer

DexFlyWheel 数据生成框架

DiDi-Instruct 后训练方法

指数-高斯混合网络 EGMN

相关百科

布局控制框架 InstanceAssemble

组方差策略优化 GVPO

判别式约束优化框架 DisCO

多编程语言 MoE 架构：MultiPL-MoE

Cache-to-Cache（C2C）

猜测-思考-回答 Guess–Think–Answer

DexFlyWheel 数据生成框架

DiDi-Instruct 后训练方法

指数-高斯混合网络 EGMN