Command Palette
Search for a command to run...
Tero Karras Samuli Laine Miika Aittala Janne Hellsten Jaakko Lehtinen Timo Aila

摘要
基于风格的生成对抗网络架构(StyleGAN)在数据驱动的无条件图像生成建模任务中取得了当前最先进的性能。本文揭示并分析了该架构中存在的若干典型伪影(artifacts),并提出了在模型架构与训练方法上的改进方案以解决这些问题。具体而言,我们重新设计了生成器的归一化机制,重新审视了渐进式生长策略,并对生成器引入正则化项,以促进从潜在编码到图像映射过程中的良好条件性(well-conditioning)。除了显著提升图像质量外,该路径长度正则化(path length regularizer)还带来了额外优势:生成器的可逆性大幅增强,使得能够可靠地将生成图像回溯至其对应的网络潜在表示。这为生成图像的可追溯性与可解释性提供了保障。此外,我们进一步可视化了生成器在不同输出分辨率下的利用效率,发现存在容量瓶颈,从而促使我们训练更大规模的模型以实现进一步的性能提升。总体而言,我们所提出的改进模型在无条件图像建模任务中重新定义了当前的技术前沿,不仅在现有分布质量评估指标上表现优异,同时在人类感知的图像质量方面也实现了显著提升。
代码仓库
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| conditional-image-generation-on-artbench-10 | StyleGAN2 | FID: 4.491 |
| image-generation-on-ffhq | StyleGAN2 | Clean-FID (70k): 2.98 FID: 2.84 |
| image-generation-on-ffhq-1024-x-1024 | StyleGAN2 | FID: 2.84 |
| image-generation-on-lsun-car-256-x-256 | StyleGAN2 | FID: 2.32 |
| image-generation-on-lsun-car-512-x-384 | StyleGAN2 | FID: 2.32 |
| image-generation-on-lsun-cat-256-x-256 | StyleGAN2 | Clean-FID (trainfull): 6.97 ± 0.16 FID: 6.93 |
| image-generation-on-lsun-churches-256-x-256 | StyleGAN2 | Clean-FID (trainfull): 4.28 ± 0.03 FID: 3.86 |
| image-generation-on-lsun-horse-256-x-256 | StyleGAN2 | Clean-FID (trainfull): 4.06 ± 0.03 FID: 3.43 |