Command Palette
Search for a command to run...

摘要
语音语言模型(Spoken Language Models, SLMs)已成为语音理解与生成的统一范式,推动了自然的人机交互发展。然而,尽管当前研究主要聚焦于语义准确性和指令遵循能力,SLMs根据口语指令动态调整自身说话风格的能力尚未得到充分关注。为此,我们提出“语音风格自适应”(Voice Style Adaptation, VSA)这一新任务,旨在考察SLMs是否能够依据自然语言的口语指令,灵活调整其说话风格,如音色、语调或角色人格等特征。为系统研究该任务,我们构建了VStyle——一个涵盖中英文双语的基准测试集,包含四类语音生成任务:声学属性控制、自然语言指令响应、角色扮演以及隐含共情表达。同时,我们提出“大型音频语言模型作为评判者”(Large Audio Language Model as a Judge, LALM as a Judge)评估框架,通过逐步评估生成结果在文本忠实度、风格一致性与自然度三个维度的表现,实现可复现且客观的评估机制。在商用系统与开源SLMs上的实验表明,现有模型在可控风格自适应方面仍存在明显局限,凸显了该任务的创新性与挑战性。通过公开发布VStyle数据集及其评估工具包,我们旨在为社区提供推动以人类为中心的语音交互技术发展的基础平台。相关数据集与代码已公开,访问地址为:https://junzhan2000.github.io/VStyle.github.io/(项目主页)。