Command Palette
Search for a command to run...

摘要
现代自动语音识别(ASR)模型需在不同应用场景下,基于特定上下文信息,准确转录来自多种领域、语言及口音的多样化语音信号。传统的端到端模型虽通过融合外部语言模型取得了良好效果,但主要局限于数据匹配场景,性能提升已逐渐接近瓶颈。本文提出Seed-ASR,一种基于大语言模型(LLM)的语音识别框架。Seed-ASR基于音频条件大语言模型(AcLLM)架构,通过将连续的语音表征与上下文信息一同输入LLM,充分发挥大语言模型在语义理解与上下文建模方面的优势。经过分阶段的大规模训练,并有效激发LLM的上下文感知能力,Seed-ASR在涵盖多领域、多口音/方言及多语言的综合评估集上,显著优于传统端到端模型。此外,Seed-ASR可直接部署于各类具体应用场景中,无需额外依赖语言模型即可满足特定需求。相较于近期发布的大型ASR模型,Seed-ASR在中英文公开测试集上分别实现了10%至40%的词错误率(中文为字符错误率)降低,充分展现了其卓越的性能表现。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| speech-recognition-on-aishell-1 | Seed-ASR | Word Error Rate (WER): 0.68 |