Command Palette
Search for a command to run...
Tao Xu∗1, Pengchuan Zhang2, Qiuyuan Huang2, Han Zhang3, Zhe Gan4, Xiaolei Huang1, Xiaodong He2

摘要
在本文中,我们提出了一种注意力生成对抗网络(Attentional Generative Adversarial Network, AttnGAN),该网络允许通过注意力驱动的多阶段精炼来实现细粒度的文本到图像生成。借助一种新颖的注意力生成网络,AttnGAN可以通过关注自然语言描述中的相关词汇,在图像的不同子区域合成细粒度的细节。此外,我们还提出了一种深度注意力多模态相似性模型,用于计算细粒度的图像-文本匹配损失以训练生成器。所提出的AttnGAN显著优于先前的技术水平,在CUB数据集上将最佳报告的 inception 分数提高了14.14%,在更具挑战性的COCO数据集上则提高了170.25%。我们还通过可视化AttnGAN的注意力层进行了详细的分析,首次展示了分层注意力GAN能够自动选择单词级别的条件来生成图像的不同部分。
代码仓库
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| text-to-image-generation-on-cub | AttnGAN | Inception score: 4.36 |
| text-to-image-generation-on-ms-coco | AttnGAN | FID: 35.49 Inception score: 25.89 SOA-C: 25.88 |
| text-to-image-generation-on-multi-modal | AttnGAN | Acc: 13.0 FID: 125.98 LPIPS: 0.512 Real: 11.9 |