4 个月前

QuartzNet：基于一维时空可分离卷积的深度自动语音识别

Samuel Kriman Stanislav Beliaev Boris Ginsburg Jocelyn Huang Oleksii Kuchaiev Vitaly Lavrukhin Ryan Leary Jason Li Yang Zhang

摘要

我们提出了一种用于自动语音识别（ASR）的新一代端到端神经声学模型。该模型由多个模块组成，模块之间通过残差连接（residual connections）相连。每个模块包含一个或多个由一维时空可分离卷积层（1D time-channel separable convolutional layers）、批归一化（batch normalization）以及ReLU激活层构成的组件。模型采用连接时序分类（CTC）损失函数进行训练。实验结果表明，该模型在LibriSpeech和Wall Street Journal数据集上均达到了接近当前最先进水平的识别准确率，同时参数量少于所有对比模型。此外，我们还证明该模型能够有效地在新数据集上进行微调（fine-tuning）。

代码仓库

sberdevices/golos

pytorch

GitHub 中提及

yangzhou6666/asrprophet

pytorch

GitHub 中提及

isadrtdinov/quartznet

pytorch

GitHub 中提及

NVIDIA/NeMo

官方

pytorch

Kirili4ik/QuartzNet-ASR-pytorch

pytorch

sooftware/OpenSpeech

pytorch

GitHub 中提及

marka17/digit-recognition

pytorch

GitHub 中提及

awasthiabhijeet/Error-Driven-ASR-Personalization

pytorch

GitHub 中提及

nanoporetech/bonito

pytorch

GitHub 中提及

osmr/imgclsmob

mxnet

GitHub 中提及

stefanpantic/asr

GitHub 中提及

oleges1/quartznet-pytorch

pytorch

GitHub 中提及

ivankunyankin/quartznet-asr

pytorch

GitHub 中提及

msalhab96/SpeeQ

pytorch

GitHub 中提及

https://gitlab.com/jaco-assistant/scribosermo

GitHub 中提及

基准测试

基准	方法	指标
speech-recognition-on-librispeech-test-clean	QuartzNet15x5	Word Error Rate (WER): 2.69
speech-recognition-on-librispeech-test-other	QuartzNet15x5	Word Error Rate (WER): 7.25

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程

即用型 GPU

最优价格

立即开始

Hyper Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

HyperAI超神经

算力平台

4 个月前

QuartzNet：基于一维时空可分离卷积的深度自动语音识别

查看论文详情

Samuel Kriman Stanislav Beliaev Boris Ginsburg Jocelyn Huang Oleksii Kuchaiev Vitaly Lavrukhin Ryan Leary Jason Li Yang Zhang

摘要

代码仓库

sberdevices/golos

pytorch

GitHub 中提及

yangzhou6666/asrprophet

pytorch

GitHub 中提及

isadrtdinov/quartznet

pytorch

GitHub 中提及

NVIDIA/NeMo

官方

pytorch

Kirili4ik/QuartzNet-ASR-pytorch

pytorch

sooftware/OpenSpeech

pytorch

GitHub 中提及

marka17/digit-recognition

pytorch

GitHub 中提及

awasthiabhijeet/Error-Driven-ASR-Personalization

pytorch

GitHub 中提及

nanoporetech/bonito

pytorch

GitHub 中提及

osmr/imgclsmob

mxnet

GitHub 中提及

stefanpantic/asr

GitHub 中提及

oleges1/quartznet-pytorch

pytorch

GitHub 中提及

ivankunyankin/quartznet-asr

pytorch

GitHub 中提及

msalhab96/SpeeQ

pytorch

GitHub 中提及

https://gitlab.com/jaco-assistant/scribosermo

GitHub 中提及

基准测试

基准	方法	指标
speech-recognition-on-librispeech-test-clean	QuartzNet15x5	Word Error Rate (WER): 2.69
speech-recognition-on-librispeech-test-other	QuartzNet15x5	Word Error Rate (WER): 7.25

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程

即用型 GPU

最优价格

立即开始

Hyper Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

QuartzNet：基于一维时空可分离卷积的深度自动语音识别

Samuel Kriman Stanislav Beliaev Boris Ginsburg Jocelyn Huang Oleksii Kuchaiev Vitaly Lavrukhin Ryan Leary Jason Li Yang Zhang

摘要

代码仓库

基准测试

用 AI 构建 AI

Hyper Newsletters

Command Palette

QuartzNet：基于一维时空可分离卷积的深度自动语音识别

Samuel Kriman Stanislav Beliaev Boris Ginsburg Jocelyn Huang Oleksii Kuchaiev Vitaly Lavrukhin Ryan Leary Jason Li Yang Zhang

摘要

代码仓库

基准测试

用 AI 构建 AI

Hyper Newsletters