Command Palette

Search for a command to run...

1 天前

F5-TTS:一种通过流匹配实现流畅且忠实语音伪造的童话讲述者

Yushen Chen Zhikang Niu Ziyang Ma Keqi Deng Chunhui Wang Jian Zhao Kai Yu Xie Chen

F5-TTS:一种通过流匹配实现流畅且忠实语音伪造的童话讲述者

摘要

本文提出了F5-TTS,一种基于流匹配(flow matching)与扩散Transformer(Diffusion Transformer, DiT)的全非自回归文本到语音(text-to-speech, TTS)系统。该系统无需复杂的结构设计,如时长模型、文本编码器或音素对齐模块。文本输入仅通过填充伪 token(filler tokens)至与语音输入相同长度,即可直接进行去噪以生成语音,这一思路最初由E2 TTS验证其可行性。然而,E2 TTS原始架构存在收敛速度慢、鲁棒性差等问题,难以有效应用。为解决上述挑战,我们首先采用ConvNeXt对输入进行建模,以优化文本表征,使其更易于与语音特征对齐。此外,我们进一步提出一种推理阶段的Sway Sampling采样策略,显著提升了模型的性能与生成效率。该流步采样策略可直接应用于现有基于流匹配的模型,无需重新训练。得益于这一设计,F5-TTS实现了更快的训练速度,并在推理阶段达到0.15的实时因子(RTF),相比当前最先进的基于扩散模型的TTS系统有显著提升。在公开的10万小时多语言数据集上训练后,F5-TTS展现出高度自然且富有表现力的零样本生成能力,支持无缝的语言切换(code-switching),并具备高效的语速控制性能。

代码仓库

SWivid/F5-TTS
官方
pytorch
GitHub 中提及

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
F5-TTS:一种通过流匹配实现流畅且忠实语音伪造的童话讲述者 | 论文 | HyperAI超神经