Command Palette

Search for a command to run...

4 个月前

PixNerd:像素神经场扩散

Shuai Wang Ziteng Gao Chenhui Zhu Weilin Huang Limin Wang

PixNerd:像素神经场扩散

摘要

当前扩散变换器(diffusion transformers)的成功在很大程度上依赖于由预训练变分自编码器(VAE)所构建的压缩潜在空间。然而,这种两阶段训练范式不可避免地引入了误差累积和解码伪影。为解决上述问题,研究人员转向像素空间进行建模,但代价是采用复杂的级联流程以及增加的令牌复杂度。与这些方法不同,我们提出通过神经场(neural field)对图像块(patch-wise)进行解码,提出了一种单尺度、单阶段、高效且端到端的解决方案,命名为像素神经场扩散(Pixel Neural Field Diffusion,简称 PixelNerd)。得益于 PixelNerd 中高效的神经场表示,我们无需任何复杂的级联流程或 VAE,便直接在 ImageNet 256×256256\times256256×256 上实现了 2.15 的 FID 分数,在 ImageNet 512×512512\times512512×512 上实现了 2.84 的 FID 分数。此外,我们将 PixelNerd 框架拓展至文本到图像生成任务。其中,PixelNerd-XXL/16 在 GenEval 基准测试中取得了 0.73 的综合得分,在 DPG 基准测试中取得了 80.9 的综合得分,表现具有竞争力。

代码仓库

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供