Command Palette

Search for a command to run...

5 天前

MIRA:用于图像编辑的多模态迭代推理Agent

Ziyun Zeng Hang Hua Jiebo Luo

MIRA:用于图像编辑的多模态迭代推理Agent

摘要

指令引导的图像编辑为用户通过自然语言操作图像提供了一种直观的方式。然而,基于扩散模型的编辑方法在理解复杂用户指令时往往表现不佳,尤其在处理组合关系、上下文线索或指代表达等语义复杂的情况时,容易导致编辑结果在语义上发生偏移,或未能准确反映用户意图。为解决这一问题,我们提出MIRA(Multimodal Iterative Reasoning Agent,多模态迭代推理代理),一种轻量级、即插即用的多模态推理代理。MIRA通过一个迭代的感知-推理-行动循环实现图像编辑,有效模拟了多轮人机交互过程。与传统方法中一次性生成提示或静态规划不同,MIRA能够逐步预测原子级的编辑指令,并利用视觉反馈动态调整决策。我们构建了包含15万条样本的多模态工具使用数据集MIRA-Editing,并结合两阶段监督微调(SFT)与GRPO(Generalized Reward Policy Optimization)训练流程,使MIRA具备对复杂编辑指令进行推理与执行的能力。当与开源图像编辑模型(如Flux.1-Kontext、Step1X-Edit和Qwen-Image-Edit)结合使用时,MIRA显著提升了编辑结果的语义一致性和视觉感知质量,其性能达到甚至超越了GPT-Image、Nano-Banana等专有系统水平。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供