Command Palette

Search for a command to run...

3 个月前

Kling-Avatar:用于级联长时长头像动画合成的多模态指令接地

Kling-Avatar:用于级联长时长头像动画合成的多模态指令接地

摘要

近年来,基于音频驱动的虚拟形象视频生成技术取得了显著进展,大幅提升了音视频的逼真度。然而,现有方法通常仅将指令条件视为由声学或视觉线索驱动的低层次追踪过程,未能建模指令所传达的交际意图。这一局限性削弱了生成内容的叙事连贯性与角色表现力。为弥补这一差距,我们提出Kling-Avatar——一种新颖的级联式框架,将多模态指令理解与逼真肖像生成融为一体。我们的方法采用两阶段流水线设计:在第一阶段,我们构建了一个多模态大语言模型(MLLM)导演,根据多样化的指令信号生成受控的蓝图视频,从而主导角色动作、情绪等高层语义;在第二阶段,基于蓝图关键帧的引导,采用首尾帧策略并行生成多个子片段。该“全局到局部”的框架在忠实保留高层指令意图的同时,有效维持了精细的细节表现。此外,我们的并行架构支持长时长视频的快速、稳定生成,适用于数字人直播、Vlog等真实应用场景。为全面评估该方法,我们构建了一个包含375个精心筛选样本的基准数据集,涵盖多样化的指令类型与复杂挑战场景。大量实验表明,Kling-Avatar能够生成生动流畅、长达数秒、分辨率高达1080p、帧率48fps的视频,在唇部同步精度、情绪与动态表现力、指令可控性、身份一致性以及跨域泛化能力等方面均达到领先水平。这些成果确立了Kling-Avatar作为语义基础明确、高保真度音频驱动虚拟形象合成的新基准。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Kling-Avatar:用于级联长时长头像动画合成的多模态指令接地 | 论文 | HyperAI超神经