Command Palette
Search for a command to run...
Ziyun Zeng Hang Hua Jiebo Luo

摘要
指令引导的图像编辑为用户通过自然语言操作图像提供了一种直观的方式。然而,基于扩散模型的编辑方法在理解复杂用户指令时往往表现不佳,尤其在处理组合关系、上下文线索或指代表达等语义复杂的情况时,容易导致编辑结果在语义上发生偏移,或未能准确反映用户意图。为解决这一问题,我们提出MIRA(Multimodal Iterative Reasoning Agent,多模态迭代推理代理),一种轻量级、即插即用的多模态推理代理。MIRA通过一个迭代的感知-推理-行动循环实现图像编辑,有效模拟了多轮人机交互过程。与传统方法中一次性生成提示或静态规划不同,MIRA能够逐步预测原子级的编辑指令,并利用视觉反馈动态调整决策。我们构建了包含15万条样本的多模态工具使用数据集MIRA-Editing,并结合两阶段监督微调(SFT)与GRPO(Generalized Reward Policy Optimization)训练流程,使MIRA具备对复杂编辑指令进行推理与执行的能力。当与开源图像编辑模型(如Flux.1-Kontext、Step1X-Edit和Qwen-Image-Edit)结合使用时,MIRA显著提升了编辑结果的语义一致性和视觉感知质量,其性能达到甚至超越了GPT-Image、Nano-Banana等专有系统水平。