Command Palette
Search for a command to run...
Qinghe Wang Xiaoyu Shi Baolu Li Weikang Bian Quande Liu Huchuan Lu Xintao Wang Pengfei Wan Kun Gai Xu Jia

摘要
当前的视频生成技术在单镜头视频片段的生成上表现优异,但在生成具有叙事性的多镜头视频方面仍面临挑战。这类视频需要灵活的镜头编排、连贯的叙事逻辑,以及超越文本提示的可控性。为应对这些挑战,我们提出 MultiShotMaster——一种高度可控的多镜头视频生成框架。该框架通过在预训练的单镜头生成模型基础上,引入两种新型的RoPE(旋转位置编码)变体,实现对多镜头视频的精准控制。首先,我们提出多镜头叙事RoPE(Multi-Shot Narrative RoPE),在镜头切换处引入显式的相位偏移,既支持灵活的镜头顺序安排,又能有效保持时间上的叙事连贯性。其次,我们设计了时空位置感知RoPE(Spatiotemporal Position-Aware RoPE),通过引入参考标记(reference tokens)和定位信号(grounding signals),实现基于时空位置的参考信息注入,从而增强生成内容的语义一致性与空间可定位性。此外,为缓解多镜头视频数据稀缺的问题,我们构建了一套自动化的数据标注流程,能够从现有视频中高效提取多镜头视频片段、对应字幕、跨镜头定位信号以及参考图像,为模型训练提供高质量的多模态数据支持。本框架充分利用模型的内在架构特性,支持多种可控生成能力:基于文本驱动的镜头间一致性、对特定主体及其运动的定制化控制,以及由背景引导的场景定制。同时,镜头数量与每段视频的时长均可灵活配置。大量实验结果表明,所提框架在生成质量与可控性方面均显著优于现有方法,展现出卓越的性能与灵活性。