Command Palette

Search for a command to run...

6 个月前

高效的神经音乐生成

Max W. Y. Lam, Qiao Tian, Tang Li, Zongyu Yin, Siyuan Feng, Ming Tu, Yuliang Ji, Rui Xia, Mingbo Ma, Xuchen Song, Jitong Chen, Yuping Wang, Yuxuan Wang

高效的神经音乐生成

摘要

近期在音乐生成领域的进展得益于最先进的MusicLM模型,该模型由三个层次的LM(语言模型)组成,分别用于语义建模、粗略声学建模和精细声学建模。然而,使用MusicLM进行采样时需要依次通过这些语言模型以获得细粒度的声学标记,这使得计算成本高昂且难以实现实时生成。如何高效地生成与MusicLM质量相当的音乐仍然是一个重大挑战。本文中,我们介绍了MeLoDy(M代表音乐;L代表语言模型;D代表扩散),这是一种基于语言模型引导的扩散模型,能够在生成具有最先进质量的音乐音频的同时,分别减少95.7%或99.6%的MusicLM前向传递次数,用于10秒或30秒音乐的采样。MeLoDy继承了MusicLM中的最高层语言模型用于语义建模,并应用了一种新颖的双路径扩散(DPD)模型和音频VAE-GAN来高效地将条件语义标记解码为波形。DPD通过在每个去噪步骤中利用交叉注意力机制有效地将语义信息融入潜在变量段,从而同时对粗略声学和精细声学进行建模。实验结果表明,MeLoDy不仅在采样速度和无限延续生成方面具有实际优势,而且在音乐性、音质和文本相关性方面也达到了最先进水平。我们的样本可在以下网址获取:https://Efficient-MeLoDy.github.io/

基准测试

基准方法指标
text-to-music-generation-on-musiccapsMeLoDy
FAD: 5.41

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供