Command Palette

Search for a command to run...

4 个月前

HiFiTTS-2:一个大规模高带宽语音数据集

Ryan Langman Xuesong Yang Paarth Neekhara Shehzeen Hussain et al

HiFiTTS-2:一个大规模高带宽语音数据集

摘要

本文介绍了HiFiTTS-2,一个专为高带宽语音合成设计的大规模语音数据集。该数据集源自LibriVox有声书资源,包含约36.7小时的英语语音数据(用于22.05 kHz训练),以及约31.7小时的语音数据(用于44.1 kHz训练)。我们详细阐述了数据处理流程,包括带宽估计、语音片段分割、文本预处理以及多说话人检测。该数据集配套提供了由我们处理流程生成的详尽语句与有声书元数据,使研究者能够通过数据质量筛选机制,将数据集适配至多种应用场景。实验结果表明,所提出的数据处理流程及其生成的数据集能够有效支持在高带宽条件下训练高质量的零样本语音合成(Text-to-Speech, TTS)模型。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供