HyperAI超神经

摘要

当前扩散变换器（diffusion transformers）的成功在很大程度上依赖于由预训练变分自编码器（VAE）所构建的压缩潜在空间。然而，这种两阶段训练范式不可避免地引入了误差累积和解码伪影。为解决上述问题，研究人员转向像素空间进行建模，但代价是采用复杂的级联流程以及增加的令牌复杂度。与这些方法不同，我们提出通过神经场（neural field）对图像块（patch-wise）进行解码，提出了一种单尺度、单阶段、高效且端到端的解决方案，命名为像素神经场扩散（Pixel Neural Field Diffusion，简称 PixelNerd）。得益于 PixelNerd 中高效的神经场表示，我们无需任何复杂的级联流程或 VAE，便直接在 ImageNet $256\times256$ 上实现了 2.15 的 FID 分数，在 ImageNet $512\times512$ 上实现了 2.84 的 FID 分数。此外，我们将 PixelNerd 框架拓展至文本到图像生成任务。其中，PixelNerd-XXL/16 在 GenEval 基准测试中取得了 0.73 的综合得分，在 DPG 基准测试中取得了 80.9 的综合得分，表现具有竞争力。

摘要

PixNerd：像素神经场扩散

Shuai Wang Ziteng Gao Chenhui Zhu Weilin Huang Limin Wang

摘要

代码仓库

用 AI 构建 AI

Hyper Newsletters

PixNerd：像素神经场扩散

Shuai Wang Ziteng Gao Chenhui Zhu Weilin Huang Limin Wang

摘要

代码仓库

用 AI 构建 AI

Hyper Newsletters

Command Palette

PixNerd：像素神经场扩散

Shuai Wang Ziteng Gao Chenhui Zhu Weilin Huang Limin Wang

摘要

代码仓库

用 AI 构建 AI

Hyper Newsletters

Command Palette

PixNerd：像素神经场扩散

Shuai Wang Ziteng Gao Chenhui Zhu Weilin Huang Limin Wang

摘要

代码仓库

用 AI 构建 AI

Hyper Newsletters