Command Palette
Search for a command to run...
Samuel Kriman Stanislav Beliaev Boris Ginsburg Jocelyn Huang Oleksii Kuchaiev Vitaly Lavrukhin Ryan Leary Jason Li Yang Zhang

摘要
我们提出了一种用于自动语音识别(ASR)的新一代端到端神经声学模型。该模型由多个模块组成,模块之间通过残差连接(residual connections)相连。每个模块包含一个或多个由一维时空可分离卷积层(1D time-channel separable convolutional layers)、批归一化(batch normalization)以及ReLU激活层构成的组件。模型采用连接时序分类(CTC)损失函数进行训练。实验结果表明,该模型在LibriSpeech和Wall Street Journal数据集上均达到了接近当前最先进水平的识别准确率,同时参数量少于所有对比模型。此外,我们还证明该模型能够有效地在新数据集上进行微调(fine-tuning)。
代码仓库
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| speech-recognition-on-librispeech-test-clean | QuartzNet15x5 | Word Error Rate (WER): 2.69 |
| speech-recognition-on-librispeech-test-other | QuartzNet15x5 | Word Error Rate (WER): 7.25 |