Command Palette
Search for a command to run...
Shiyang Li; Xiaoyong Jin; Yao Xuan; Xiyou Zhou; Wenhu Chen; Yu-Xiang Wang; Xifeng Yan

摘要
时间序列预测是许多领域中的一个重要问题,包括太阳能发电站的能量输出预测、电力消耗预测以及交通拥堵情况预测。在本文中,我们提出使用Transformer模型[1]来解决这一预测问题。尽管初步研究显示其性能令人印象深刻,但我们发现了该模型的两个主要弱点:(1)局部无关性:标准Transformer架构中的点对点自注意力机制对局部上下文不敏感,这可能导致模型在时间序列中容易出现异常;(2)内存瓶颈:标准Transformer的空间复杂度随序列长度L呈二次增长,使得直接建模长时间序列变得不可行。为了解决这两个问题,我们首先提出了卷积自注意力机制,通过因果卷积生成查询向量和键向量,从而更好地将局部上下文融入注意力机制。然后,我们提出了LogSparse Transformer,其内存成本仅为O(L(logL)2),在有限的内存预算下提高了细粒度且具有强长期依赖性的时间序列的预测精度。我们在合成数据和真实世界数据集上的实验表明,该方法与现有最先进方法相比具有竞争力。
代码仓库
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| image-generation-on-imagenet-64x64 | Logsparse (6 layers) | Bits per dim: 4.351 |