Command Palette

Search for a command to run...

5 个月前

Phantom-Data:面向通用主题一致的视频生成数据集

Phantom-Data:面向通用主题一致的视频生成数据集

摘要

近年来,从文本生成视频(subject-to-video generation)取得了显著进展。然而,现有的模型在忠实遵循文本指令方面仍面临重大挑战。这一限制通常被称为“复制粘贴问题”,其根源在于广泛使用的配对训练范式(in-pair training paradigm)。这种做法通过从与目标视频相同场景中采样参考图像,将主体身份与背景和上下文属性内在地纠缠在一起。为了解决这一问题,我们引入了Phantom-Data,这是首个通用的跨配对主体到视频一致性数据集,包含约一百万个跨多种类别的身份一致对。我们的数据集通过一个三阶段的管道构建:(1) 一个通用且输入对齐的主体检测模块;(2) 从超过5300万段视频和30亿张图像中进行大规模跨上下文主体检索;(3) 基于先验的身份数字验证,以确保在上下文变化下的视觉一致性。全面的实验表明,使用Phantom-Data进行训练可以显著提高提示对齐性和视觉质量,同时保持与配对基线相当的身份一致性。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Phantom-Data:面向通用主题一致的视频生成数据集 | 论文 | HyperAI超神经