HyperAI超神经

摘要

本文提出了一种多功能语音合成系统，该系统在统一框架内集成了语音克隆与情感控制语音合成技术。本研究旨在解决长期存在的技术挑战，即实现高度富有表现力、可控制且自然的语音生成，同时在多样化的语言与情感语境下准确保留说话人身份。我们的方法引入了一种高效的说话人-情感解耦机制，结合批次内对比学习（in-batch contrastive learning），实现了对说话人身份与情感风格的独立操控；同时提出了一种旋转式情感嵌入融合方法，以实现平滑的情感控制。为支持全面的训练与评估，我们构建了CSEMOTIONS数据集——一个高质量的情感语音数据集，包含六位专业发音人录制的10小时普通话语音，覆盖七种情感类别。大量实验表明，所提出的系统Marco-Voice在客观与主观评价指标上均取得了显著提升。全面的评估与分析结果显示，Marco-Voice在语音清晰度与情感丰富性方面均表现出色，标志着在富有表现力的神经语音合成领域取得了重要进展。相关代码与数据集已分别公开发布于以下链接：[此处插入代码链接] 和 [此处插入数据集链接]。

摘要

Marco-Voice 技术报告

Fengping Tian Chenyang Lyu Xuanfan Ni Haoqin Sun Qingjuan Li Zhiqiang Qian et al

摘要

代码仓库

用 AI 构建 AI

Hyper Newsletters

Marco-Voice 技术报告

Fengping Tian Chenyang Lyu Xuanfan Ni Haoqin Sun Qingjuan Li Zhiqiang Qian et al

摘要

代码仓库

用 AI 构建 AI

Hyper Newsletters

Command Palette

Marco-Voice 技术报告

Fengping Tian Chenyang Lyu Xuanfan Ni Haoqin Sun Qingjuan Li Zhiqiang Qian et al

摘要

代码仓库

用 AI 构建 AI

Hyper Newsletters

Command Palette

Marco-Voice 技术报告

Fengping Tian Chenyang Lyu Xuanfan Ni Haoqin Sun Qingjuan Li Zhiqiang Qian et al

摘要

代码仓库

用 AI 构建 AI

Hyper Newsletters