Command Palette
Search for a command to run...
Lvmin Zhang Anyi Rao Maneesh Agrawala

摘要
我们介绍了ControlNet,这是一种神经网络架构,旨在为大型预训练文本到图像扩散模型添加空间条件控制。ControlNet锁定生产就绪的大型扩散模型,并重用其通过数十亿张图像预训练得到的深度且强大的编码层作为强大骨干,以学习多种条件控制。该神经架构通过“零卷积”(zero-initialized convolution layers)与之连接,这些卷积层从零开始逐步增加参数,确保不会有任何有害噪声影响微调过程。我们使用Stable Diffusion测试了各种条件控制,例如边缘、深度、分割、人体姿态等,使用单个或多个条件,并结合或不结合提示进行实验。结果显示,ControlNet在小规模(<50k)和大规模(>1m)数据集上的训练均具有鲁棒性。大量实验结果表明,ControlNet可能有助于更广泛地应用图像扩散模型的控制功能。
代码仓库
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| layout-to-image-generation-on-layoutbench-1 | ControlNet | AP: 9.2 |
| layout-to-image-generation-on-layoutbench-2 | ControlNet | AP: 15.3 |
| layout-to-image-generation-on-layoutbench-3 | ControlNet | AP: 10.8 |
| layout-to-image-generation-on-layoutbench-4 | ControlNet | AP: 6.4 |