Command Palette
Search for a command to run...
Qiang Xiang Shuang Sun Binglei Li Dejia Song Huaxia Li Nemo Chen Xu Tang Yao Hu Junping Zhang

摘要
扩散模型在生成高质量图像方面展现了卓越的能力。近期,布局到图像(Layout-to-Image, L2I)生成技术通过引入位置条件与文本描述,实现了更精确、可控制的图像合成。尽管整体进展显著,现有L2I方法仍存在性能不足的问题。为此,我们提出一种新型架构——InstanceAssemble,该架构通过实例组装注意力机制(instance-assembling attention)引入布局条件,实现基于边界框(bbox)的位置控制,以及文本与额外视觉内容等多模态内容的协同控制。我们的方法可通过轻量级LoRA模块灵活适配现有的基于DiT(Diffusion Transformer)的文本到图像(T2I)模型。此外,我们构建了一个全新的L2I基准测试集——Denselayout,该基准包含总计5,000张图像与90,000个实例,具有高度的多样性与复杂性。我们还提出一种可解释的评估指标——布局定位得分(Layout Grounding Score, LGS),以更精准地衡量L2I生成结果的准确性。实验结果表明,所提出的InstanceAssemble方法在复杂布局条件下实现了当前最优的生成性能,并展现出与多种风格LoRA模块良好的兼容性。