Command Palette
Search for a command to run...
Daniel S. Park* William Chan Yu Zhang Chung-Cheng Chiu Barret Zoph Ekin D. Cubuk Quoc V. Le

摘要
我们介绍了SpecAugment,一种用于语音识别的简单数据增强方法。SpecAugment直接应用于神经网络的特征输入(即滤波器组系数)。该增强策略包括对特征进行扭曲、遮蔽频率通道块以及遮蔽时间步长块。我们将SpecAugment应用于“听、注意和拼写”网络,以完成端到端的语音识别任务。在LibriSpeech 960小时和Switchboard 300小时任务中,我们达到了最先进的性能,超越了所有先前的工作。在LibriSpeech任务中,我们在不使用语言模型的情况下,在test-other测试集上实现了6.8%的词错误率(WER),而在浅层融合语言模型的情况下,实现了5.8%的WER。这相比之前最先进的混合系统7.5%的WER有所提升。对于Switchboard任务,在Hub5'00测试集的Switchboard/CallHome部分,我们在不使用语言模型的情况下分别实现了7.2%和14.6%的WER,在浅层融合语言模型的情况下分别实现了6.8%和14.1%的WER,相比之下,之前最先进的混合系统的WER为8.3%和17.3%。
代码仓库
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| speech-recognition-on-hub500-switchboard | LAS + SpecAugment (with LM, Switchboard mild policy) | CallHome: 14.6 SwitchBoard: 6.8 |
| speech-recognition-on-hub500-switchboard | LAS + SpecAugment (with LM, Switchboard strong policy) | CallHome: 14 SwitchBoard: 7.1 |
| speech-recognition-on-librispeech-test-clean | LAS (no LM) | Word Error Rate (WER): 2.7 |
| speech-recognition-on-librispeech-test-clean | LAS + SpecAugment | Word Error Rate (WER): 2.5 |
| speech-recognition-on-librispeech-test-other | LAS + SpecAugment | Word Error Rate (WER): 5.8 |
| speech-recognition-on-librispeech-test-other | LAS (no LM) | Word Error Rate (WER): 6.5 |