Command Palette
Search for a command to run...
Yang Song Prafulla Dhariwal Mark Chen Ilya Sutskever

摘要
扩散模型在图像、音频和视频生成领域取得了显著进展,但其依赖迭代采样过程,导致生成速度较慢。为克服这一局限,我们提出了一类新型模型——一致性模型(consistency models),该模型通过直接将噪声映射到数据空间,生成高质量样本。这类模型从设计上支持快速的一步生成,同时仍保留多步采样的能力,从而可在计算资源与样本质量之间灵活权衡。此外,一致性模型无需针对特定任务进行显式训练,即可实现零样本数据编辑,例如图像修复(inpainting)、着色(colorization)和超分辨率(super-resolution)等。一致性模型的训练方式有两种:既可以通过对预训练的扩散模型进行知识蒸馏来实现,也可作为独立的生成模型直接训练。通过大量实验验证,我们发现该模型在一步及少步采样场景下,显著优于现有的扩散模型蒸馏方法,在CIFAR-10数据集上实现新的最优FID分数3.55,在ImageNet 64×64数据集上达到6.20。当作为独立生成模型训练时,一致性模型成为一类全新的生成模型,其性能在标准基准测试(如CIFAR-10、ImageNet 64×64和LSUN 256×256)上超越了现有的一步生成、非对抗性生成模型,展现出强大的生成能力与应用潜力。
代码仓库
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| image-generation-on-cifar-10 | CT (Direct Generation, NFE=2) | FID: 5.83 |
| image-generation-on-imagenet-64x64 | CD (Diffusion + Distillation, NFE=2) | FID: 4.70 NFE: 2 |
| image-generation-on-imagenet-64x64 | CT (Direct Generation, NFE=1) | FID: 13.0 NFE: 1 |
| image-generation-on-imagenet-64x64 | CT (Direct Generation, NFE=2) | FID: 11.1 NFE: 2 |
| image-generation-on-imagenet-64x64 | CD (Diffusion + Distillation, NFE=1) | FID: 6.20 NFE: 1 |