Command Palette
Search for a command to run...

摘要
视觉特效(VFX)在数字媒体的表达力中起着至关重要的作用,然而其生成仍是生成式人工智能面临的主要挑战。当前主流方法通常采用“每种特效对应一个LoRA”的范式,该方法资源消耗大,且在本质上无法泛化到未见过的特效,从而严重限制了可扩展性与创作能力。为应对这一挑战,我们提出VFXMaster,这是首个统一的、基于参考的视觉特效视频生成框架。该框架将特效生成重构为一种上下文学习任务,能够仅通过一个参考视频,将多种动态特效迁移到目标内容上。此外,该方法在未见特效类别上展现出卓越的泛化能力。具体而言,我们设计了一种上下文条件化策略,通过提供一个参考样例来引导模型;同时,引入一种上下文注意力掩码机制,精准地解耦并注入关键特效属性,使单一统一模型能够实现特效的精准模仿,且避免信息泄露。此外,我们提出一种高效的单样本特效自适应机制,仅需用户提供的单个视频,即可快速提升模型对复杂未见特效的泛化能力。大量实验表明,我们的方法能够有效模仿多种类别的特效信息,并在域外特效上表现出出色的泛化性能。为推动未来研究,我们将向社区公开代码、模型及一个全面的数据集。