HyperAI超神经

摘要

现有的大规模视频生成模型计算量巨大，阻碍了其在实时和交互式应用中的采用。在这项工作中，我们提出了一种自回归对抗性后训练（AAPT）方法，将预训练的潜在视频扩散模型转化为实时、交互式的视频生成器。我们的模型通过单次神经函数评估（1NFE）逐帧自回归生成潜在帧。该模型可以实时向用户流传输结果，并接收用户的交互响应作为控制信号来生成下一帧潜在图像。与现有方法不同，我们的方法探索了对抗性训练作为一种有效的自回归生成范式。这不仅使我们能够设计出一种更高效的一步生成架构，同时充分利用KV缓存，还能够在学生强制训练模式下对模型进行训练，这种模式已被证明在长时间视频生成过程中有效减少误差累积。我们的实验表明，80亿参数的模型可以在单个H100上以736x416分辨率实现24帧每秒的实时流传输视频生成，或者在8个H100上以1280x720分辨率生成长达一分钟（1440帧）的视频。访问我们的研究网站：https://seaweed-apt.com/2

摘要

自回归对抗后训练在实时交互视频生成中的应用

Shanchuan Lin Ceyuan Yang Hao He Jianwen Jiang Yuxi Ren Xin Xia Yang Zhao Xuefeng Xiao Lu Jiang

摘要

用 AI 构建 AI

Hyper Newsletters

自回归对抗后训练在实时交互视频生成中的应用

Shanchuan Lin Ceyuan Yang Hao He Jianwen Jiang Yuxi Ren Xin Xia Yang Zhao Xuefeng Xiao Lu Jiang

摘要

用 AI 构建 AI

Hyper Newsletters

Command Palette

自回归对抗后训练在实时交互视频生成中的应用

Shanchuan Lin Ceyuan Yang Hao He Jianwen Jiang Yuxi Ren Xin Xia Yang Zhao Xuefeng Xiao Lu Jiang

摘要

用 AI 构建 AI

Hyper Newsletters

Command Palette

自回归对抗后训练在实时交互视频生成中的应用

Shanchuan Lin Ceyuan Yang Hao He Jianwen Jiang Yuxi Ren Xin Xia Yang Zhao Xuefeng Xiao Lu Jiang

摘要

用 AI 构建 AI

Hyper Newsletters