Command Palette
Search for a command to run...
Bowen Chen Mengyi Zhao Haomiao Sun Li Chen Xu Wang Kang Du Xinglong Wu

摘要
在文本到图像生成中实现对主体身份和语义属性(姿态、风格、光照)的细粒度控制,尤其是在多主体的情况下,通常会损害扩散变换器(Diffusion Transformers, DiTs)的可编辑性和连贯性。许多方法会引入伪影或遭受属性纠缠的问题。为了解决这些挑战,我们提出了一种新颖的多主体控制生成模型——XVerse。通过将参考图像转换为特定令牌文本流调制的偏移量,XVerse 能够对特定主体进行精确且独立的控制,而不会干扰图像潜在变量或特征。因此,XVerse 提供了高保真、可编辑的多主体图像合成,并对各个主体的特征和语义属性具有强大的控制能力。这一进展显著提升了个性化和复杂场景生成的能力。
代码仓库
bytedance/xverse
官方
pytorch
GitHub 中提及