HyperAI超神经

摘要

基于Transformer的架构在视频生成任务中取得了显著的成功。然而，全注意力机制的二次复杂度仍然是一个关键瓶颈，特别是在处理高分辨率和长时长的视频序列时。在本文中，我们提出了一种新颖的邻域自适应块级注意力机制（NABLA），该机制能够动态适应视频扩散Transformer（DiTs）中的稀疏模式。通过采用具有自适应稀疏驱动阈值的块级注意力，NABLA在保持生成质量的同时降低了计算开销。我们的方法无需定制低级运算符，可与PyTorch的Flex Attention运算符无缝集成。实验表明，NABLA在几乎不牺牲定量指标（CLIP分数、VBench分数、人工评价分数）和视觉质量的情况下，实现了比基线模型快达2.7倍的训练和推理速度。代码和模型权重可在以下链接获取：https://github.com/gen-ai-team/Wan2.1-NABLA

NABLA：邻域自适应块级注意力

Dmitrii Mikhailov Aleksey Letunovskiy Maria Kovaleva Vladimir Arkhipkin Vladimir Korviakov Vladimir Polovnikov Viacheslav Vasilev Evelina Sidorova Denis Dimitrov

摘要

代码仓库

用 AI 构建 AI

Hyper Newsletters

NABLA：邻域自适应块级注意力

Dmitrii Mikhailov Aleksey Letunovskiy Maria Kovaleva Vladimir Arkhipkin Vladimir Korviakov Vladimir Polovnikov Viacheslav Vasilev Evelina Sidorova Denis Dimitrov

摘要

代码仓库

用 AI 构建 AI

Hyper Newsletters

Command Palette

NABLA：邻域自适应块级注意力

Dmitrii Mikhailov Aleksey Letunovskiy Maria Kovaleva Vladimir Arkhipkin Vladimir Korviakov Vladimir Polovnikov Viacheslav Vasilev Evelina Sidorova Denis Dimitrov

摘要

代码仓库

用 AI 构建 AI

Hyper Newsletters

Command Palette

NABLA：邻域自适应块级注意力

Dmitrii Mikhailov Aleksey Letunovskiy Maria Kovaleva Vladimir Arkhipkin Vladimir Korviakov Vladimir Polovnikov Viacheslav Vasilev Evelina Sidorova Denis Dimitrov

摘要

代码仓库

用 AI 构建 AI

Hyper Newsletters