Command Palette

Search for a command to run...

6 个月前

自回归对抗后训练在实时交互视频生成中的应用

Shanchuan Lin Ceyuan Yang Hao He Jianwen Jiang Yuxi Ren Xin Xia Yang Zhao Xuefeng Xiao Lu Jiang

自回归对抗后训练在实时交互视频生成中的应用

摘要

现有的大规模视频生成模型计算量巨大,阻碍了其在实时和交互式应用中的采用。在这项工作中,我们提出了一种自回归对抗性后训练(AAPT)方法,将预训练的潜在视频扩散模型转化为实时、交互式的视频生成器。我们的模型通过单次神经函数评估(1NFE)逐帧自回归生成潜在帧。该模型可以实时向用户流传输结果,并接收用户的交互响应作为控制信号来生成下一帧潜在图像。与现有方法不同,我们的方法探索了对抗性训练作为一种有效的自回归生成范式。这不仅使我们能够设计出一种更高效的一步生成架构,同时充分利用KV缓存,还能够在学生强制训练模式下对模型进行训练,这种模式已被证明在长时间视频生成过程中有效减少误差累积。我们的实验表明,80亿参数的模型可以在单个H100上以736x416分辨率实现24帧每秒的实时流传输视频生成,或者在8个H100上以1280x720分辨率生成长达一分钟(1440帧)的视频。访问我们的研究网站:https://seaweed-apt.com/2

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供