Command Palette

Search for a command to run...

4 个月前

Marco-Voice 技术报告

Fengping Tian Chenyang Lyu Xuanfan Ni Haoqin Sun Qingjuan Li Zhiqiang Qian et al

Marco-Voice 技术报告

摘要

本文提出了一种多功能语音合成系统,该系统在统一框架内集成了语音克隆与情感控制语音合成技术。本研究旨在解决长期存在的技术挑战,即实现高度富有表现力、可控制且自然的语音生成,同时在多样化的语言与情感语境下准确保留说话人身份。我们的方法引入了一种高效的说话人-情感解耦机制,结合批次内对比学习(in-batch contrastive learning),实现了对说话人身份与情感风格的独立操控;同时提出了一种旋转式情感嵌入融合方法,以实现平滑的情感控制。为支持全面的训练与评估,我们构建了CSEMOTIONS数据集——一个高质量的情感语音数据集,包含六位专业发音人录制的10小时普通话语音,覆盖七种情感类别。大量实验表明,所提出的系统Marco-Voice在客观与主观评价指标上均取得了显著提升。全面的评估与分析结果显示,Marco-Voice在语音清晰度与情感丰富性方面均表现出色,标志着在富有表现力的神经语音合成领域取得了重要进展。相关代码与数据集已分别公开发布于以下链接:[此处插入代码链接] 和 [此处插入数据集链接]。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供