Command Palette
Search for a command to run...

摘要
统一的多模态模型在图像生成与理解任务中代表了迈向通用人工智能(AGI)的重要一步,近年来受到研究界的广泛关注。该任务的主要挑战在于,由于理解与生成任务本身存在固有的目标冲突,难以建立最优的训练范式。为缓解此类冲突并提升模型性能,许多研究者采用不同程度的模型解耦策略,例如双图像编码器结构、MOE/MOT架构,或冻结多模态大语言模型(MLLM)。然而,过度的模型解耦会导致模型丧失跨模态交织生成能力,从而背离统一多模态模型的初衷。在本工作中,我们致力于探索在不依赖模型解耦的前提下,如何有效缓解任务间的冲突。首先,通过分析模型在跨模态注意力机制中的行为,我们揭示了模型解耦为何能够缓解冲突的内在原因:解耦本质上促使模型向任务特异性的多模态交互模式演进,如Qwen-VL与HunyuanImage所展现的那样,且解耦程度越彻底,这种行为的一致性越强。受此观察启发,我们提出一种新的损失函数——注意力交互对齐(Attention Interaction Alignment, AIA)损失,在训练过程中显式地学习任务特异性的多模态交互模式。为验证AIA损失的通用性,我们分别在Emu3和Janus-Pro模型的监督微调(SFT)与后训练阶段应用该方法。实验结果表明,无需引入复杂组件或额外技巧,AIA损失不仅有效优化了跨模态注意力的结构模式,还显著提升了模型在图像生成与理解任务中的综合性能。