Command Palette
Search for a command to run...

摘要
为实现全球范围内消除语言障碍的愿景,机器翻译已成为当今人工智能研究的核心方向之一。然而,现有努力主要集中在少数高资源语言上,导致绝大多数低资源语言被忽视。如何突破200种语言的翻译瓶颈,在保障翻译质量与安全性的前提下,同时兼顾伦理考量,成为亟待解决的关键问题。在《无语言被遗落》(No Language Left Behind)这一研究中,我们迎难而上。首先,通过与母语者开展探索性访谈,深入理解低资源语言翻译支持的迫切需求;随后,构建了专门针对低资源语言的数据集与模型,旨在缩小低资源语言与高资源语言之间的性能差距。具体而言,我们提出了一种基于稀疏门控专家混合模型(Sparsely Gated Mixture of Experts)的条件计算架构,并利用专为低资源语言设计的新型高效数据挖掘技术获取训练数据。为应对在数千个翻译任务上训练时可能出现的过拟合问题,我们引入了多项架构与训练策略的改进。尤为重要的是,我们采用人类翻译的基准测试集Flores-200,对超过40,000种不同的翻译方向进行了系统评估,并结合一项覆盖Flores-200中所有语言的新型毒性检测基准,全面评估翻译结果的安全性。实验结果表明,我们的模型相较此前的最先进水平,BLEU得分提升了44%,为构建通用翻译系统奠定了重要基础。最后,我们已将本研究中所有成果开源,相关代码与资源可访问:https://github.com/facebookresearch/fairseq/tree/nllb。
代码仓库
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| machine-translation-on-flores-200 | NLLB-3.3B | BLEU: 37.5 |
| machine-translation-on-iwslt2015-english-1 | NLLB-200 | - |
| machine-translation-on-iwslt2017-arabic | NLLB-200 | SacreBLEU: 44.7 |
| machine-translation-on-iwslt2017-english | NLLB-200 | SacreBLEU: 43 |
| machine-translation-on-iwslt2017-english-1 | NLLB-200 | SacreBLEU: 25.2 |
| machine-translation-on-iwslt2017-french | NLLB-200 | SacreBLEU: 45.8 |