Command Palette

Search for a command to run...

5 天前

DiP:在像素空间中驯服扩散模型

Zhennan Chen Junwei Zhu Xu Chen Jiangning Zhang Xiaobin Hu Hanzhen Zhao Chengjie Wang Jian Yang Ying Tai

DiP:在像素空间中驯服扩散模型

摘要

扩散模型在生成质量与计算效率之间面临根本性权衡。潜在扩散模型(Latent Diffusion Models, LDMs)虽能提供高效的解决方案,但存在潜在的信息丢失以及非端到端训练的问题。相比之下,现有的像素空间模型虽避免了变分自编码器(VAE)的使用,但在高分辨率图像生成任务中计算成本过高,难以实用。为解决这一困境,我们提出DiP——一种高效的像素空间扩散框架。DiP将生成过程解耦为全局与局部两个阶段:基于扩散Transformer(Diffusion Transformer, DiT)的主干网络在大图像块上运行,高效构建全局结构;同时,一个协同训练的轻量级局部细节恢复头(Patch Detailer Head)利用上下文特征,精准还原细粒度的局部细节。该协同设计在不依赖VAE的前提下,实现了与LDM相当的计算效率。DiP在推理速度上相比先前方法最快提升达10倍,同时模型总参数量仅增加0.3%,并在ImageNet 256×256数据集上取得了1.90的FID分数,显著提升了生成质量与效率的平衡。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供