5 个月前

XVerse：通过DiT调制实现一致的多主体身份和语义属性控制

Bowen Chen Mengyi Zhao Haomiao Sun Li Chen Xu Wang Kang Du Xinglong Wu

摘要

在文本到图像生成中实现对主体身份和语义属性（姿态、风格、光照）的细粒度控制，尤其是在多主体的情况下，通常会损害扩散变换器（Diffusion Transformers, DiTs）的可编辑性和连贯性。许多方法会引入伪影或遭受属性纠缠的问题。为了解决这些挑战，我们提出了一种新颖的多主体控制生成模型——XVerse。通过将参考图像转换为特定令牌文本流调制的偏移量，XVerse 能够对特定主体进行精确且独立的控制，而不会干扰图像潜在变量或特征。因此，XVerse 提供了高保真、可编辑的多主体图像合成，并对各个主体的特征和语义属性具有强大的控制能力。这一进展显著提升了个性化和复杂场景生成的能力。