Command Palette

Search for a command to run...

4 个月前

Story2Board:一种无需训练的富有表现力的分镜生成方法

David Dinkevich Matan Levy Omri Avrahami Dvir Samuel Dani Lischinski

Story2Board:一种无需训练的富有表现力的分镜生成方法

摘要

我们提出 Story2Board,一种无需训练的、从自然语言生成富有表现力的分镜图(storyboard)的框架。现有方法大多局限于角色身份的一致性,而忽视了视觉叙事中的关键要素,如空间构图、背景演变以及叙事节奏。为解决这一问题,我们设计了一种轻量级的一致性框架,包含两个核心组件:潜在分镜锚定(Latent Panel Anchoring),用于在不同分镜间保持角色特征的一致性;以及互注意力值混合(Reciprocal Attention Value Mixing),通过在具有强互注意力关系的词元对之间软性融合视觉特征,增强跨分镜的语义连贯性。这两个机制无需修改模型架构或进行微调,即可显著提升生成结果的连贯性,使当前最先进的扩散模型能够生成视觉多样且语义一致的分镜图。为结构化生成过程,我们采用现成的语言模型,将自由形式的叙事文本转化为具有语义锚定的分镜级提示(panel-level prompts)。为评估性能,我们提出了丰富分镜图基准(Rich Storyboard Benchmark),这是一个面向开放域叙事的评测集合,用于综合评估布局多样性、背景相关的叙事能力以及整体一致性。此外,我们还引入了一种新的场景多样性指标(Scene Diversity Metric),用于量化分镜图在空间布局与姿态变化方面的多样性。定性与定量实验结果,以及用户研究均表明,Story2Board 在生成动态性、连贯性及叙事吸引力方面均显著优于现有基线方法。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供