Command Palette

Search for a command to run...

5 天前

REASONEDIT:面向推理增强的图像编辑模型

REASONEDIT:面向推理增强的图像编辑模型

摘要

近年来,图像编辑模型取得了显著进展。一种常见的架构设计是将多模态大语言模型(MLLM)编码器与扩散解码器相结合,如Step1X-Edit和Qwen-Image-Edit等系统所示,其中MLLM同时编码参考图像和编辑指令,但在训练过程中保持冻结状态。在本工作中,我们证明了激活MLLM的推理能力,能够进一步推动图像编辑模型的性能边界。具体而言,我们探索了两种推理机制——“思考”(thinking)与“反思”(reflection),以提升对指令的理解能力与编辑的准确性。基于此,我们提出了一种“思考-编辑-反思”循环框架:其中,“思考”机制利用MLLM所具备的世界知识,解析抽象的编辑指令;而“反思”机制则对编辑结果进行评估,自动纠正意外的修改操作,并判断是否达到停止迭代的条件。大量实验表明,所提出的推理方法显著提升了模型性能——在以Step1X-Edit(ReasonEdit-S)的DiT模型为初始化基础时,ImgEdit、GEdit和Kris三项指标分别提升4.3%、4.7%和8.2%;当与Qwen-Image-Edit结合时,ReasonEdit-Q在GEdit和Kris两个基准上也优于此前所有开源方法。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
REASONEDIT:面向推理增强的图像编辑模型 | 论文 | HyperAI超神经