Command Palette
Search for a command to run...
Nina Konovalova Maxim Nikolaev Andrey Kuznetsov Aibek Alanov

摘要
尽管在文本到图像扩散模型方面取得了显著进展,但在生成输出中实现精确的空间控制仍然是一个挑战。ControlNet 通过引入辅助条件模块解决了这一问题,而 ControlNet++ 则通过仅在最终去噪步骤中应用循环一致性损失进一步改进了对齐效果。然而,这种方法忽略了中间生成阶段,限制了其有效性。我们提出了一种名为 InnerControl 的训练策略,该策略在整个扩散过程中强制执行空间一致性。我们的方法训练轻量级卷积探针,以从每个去噪步骤中的中间 UNet 特征重建输入的控制信号(例如边缘、深度)。这些探针即使在高度噪声的潜在变量中也能高效提取信号,从而为训练提供伪真实控制信号。通过在整个扩散过程中最小化预测条件与目标条件之间的差异,我们的对齐损失不仅提高了控制保真度,还提升了生成质量。结合已有的技术如 ControlNet++,InnerControl 在多种条件方法(例如边缘、深度)上实现了最先进的性能。