Command Palette
Search for a command to run...
Ali Behrouz Meisam Razaviyayn Peilin Zhong Vahab Mirrokni

摘要
设计高效且有效的架构主干,一直是提升基础模型能力的研究核心。受人类认知中“注意力偏向”这一现象的启发——即人们天然倾向于优先关注某些事件或刺激——我们重新构想神经网络架构,包括Transformer、Titan以及现代线性循环神经网络,将其视为一种关联记忆模块,通过内部目标(称为注意力偏向)学习键(key)与值(value)之间的映射关系。令人惊讶的是,我们发现大多数现有序列模型均采用以下两种注意力偏向目标之一:(1)点积相似性,或(2)L2回归目标。在此基础上,我们提出一系列替代性的注意力偏向配置及其有效的近似方法,以稳定训练过程。随后,我们将现代深度学习架构中的遗忘机制重新诠释为一种保留正则化形式,从而为序列模型提出了一组全新的遗忘门机制。基于上述洞见,我们提出了Miras——一个通用的深度学习架构设计框架,其核心由四个可选设计构成:(i)关联记忆架构,(ii)注意力偏向目标,(iii)保留门机制,以及(iv)记忆学习算法。在此框架下,我们构建了三种新型序列模型:Moneta、Yaad与Memora,这些模型在超越现有线性RNN能力的同时,仍保持快速且可并行化的训练特性。实验结果表明,Miras中的不同设计选择会生成具有各异优势的模型。例如,某些Miras实例在特定任务中表现出卓越性能,如语言建模、常识推理以及高记忆强度任务,甚至超越了Transformer及其他现代线性循环模型。