Command Palette
Search for a command to run...
Shaojie Bai¹ J. Zico Kolter² Vladlen Koltun³

摘要
对于大多数深度学习从业者而言,序列建模几乎等同于循环网络。然而,最近的研究结果表明,在诸如音频合成和机器翻译等任务中,卷积架构可以超越循环网络的表现。面对一个新的序列建模任务或数据集时,应该选择哪种架构?我们对用于序列建模的通用卷积架构和循环架构进行了系统评估。这些模型在一系列常用于评估循环网络的标准任务上进行了测试。我们的研究结果表明,一个简单的卷积架构在多种任务和数据集上优于经典的循环网络(如LSTM),并且表现出更长的有效记忆能力。因此,我们认为应当重新考虑序列建模与循环网络之间的普遍联系,并将卷积网络视为序列建模任务的一个自然起点。为了帮助相关研究工作,我们已将代码发布在 http://github.com/locuslab/TCN 。
代码仓库
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| language-modelling-on-penn-treebank-character | Temporal Convolutional Network | Bit per Character (BPC): 1.31 |
| language-modelling-on-penn-treebank-word | LSTM (Bai et al., 2018) | Test perplexity: 78.93 |
| language-modelling-on-penn-treebank-word | GRU (Bai et al., 2018) | Test perplexity: 92.48 |
| language-modelling-on-wikitext-103 | TCN | Test perplexity: 45.19 |
| music-modeling-on-jsb-chorales | TCN | NLL: 8.10 |
| music-modeling-on-nottingham | GRU | NLL: 3.46 |
| music-modeling-on-nottingham | LSTM | NLL: 3.29 |
| music-modeling-on-nottingham | TCN | NLL: 3.07 |
| music-modeling-on-nottingham | RNN | NLL: 4.05 |
| sequential-image-classification-on-sequential | Temporal Convolutional Network | Permuted Accuracy: 97.2% Unpermuted Accuracy: 99.0% |