HyperAI

摘要

近年来，图像编辑模型取得了显著进展。一种常见的架构设计是将多模态大语言模型（MLLM）编码器与扩散解码器相结合，如Step1X-Edit和Qwen-Image-Edit等系统所示，其中MLLM同时编码参考图像和编辑指令，但在训练过程中保持冻结状态。在本工作中，我们证明了激活MLLM的推理能力，能够进一步推动图像编辑模型的性能边界。具体而言，我们探索了两种推理机制——“思考”（thinking）与“反思”（reflection），以提升对指令的理解能力与编辑的准确性。基于此，我们提出了一种“思考-编辑-反思”循环框架：其中，“思考”机制利用MLLM所具备的世界知识，解析抽象的编辑指令；而“反思”机制则对编辑结果进行评估，自动纠正意外的修改操作，并判断是否达到停止迭代的条件。大量实验表明，所提出的推理方法显著提升了模型性能——在以Step1X-Edit（ReasonEdit-S）的DiT模型为初始化基础时，ImgEdit、GEdit和Kris三项指标分别提升4.3%、4.7%和8.2%；当与Qwen-Image-Edit结合时，ReasonEdit-Q在GEdit和Kris两个基准上也优于此前所有开源方法。

摘要

REASONEDIT：面向推理增强的图像编辑模型

Fukun Yin Shiyu Liu Yucheng Han Zhibo Wang Peng Xing Rui Wang Wei Cheng Yingming Wang Aojie Li Zixin Yin

摘要

用 AI 构建 AI

Hyper Newsletters

REASONEDIT：面向推理增强的图像编辑模型

Fukun Yin Shiyu Liu Yucheng Han Zhibo Wang Peng Xing Rui Wang Wei Cheng Yingming Wang Aojie Li Zixin Yin

摘要

用 AI 构建 AI

Hyper Newsletters

Command Palette

REASONEDIT：面向推理增强的图像编辑模型

Fukun Yin Shiyu Liu Yucheng Han Zhibo Wang Peng Xing Rui Wang Wei Cheng Yingming Wang Aojie Li Zixin Yin5 more

摘要

用 AI 构建 AI

Hyper Newsletters

Command Palette

REASONEDIT：面向推理增强的图像编辑模型

Fukun Yin Shiyu Liu Yucheng Han Zhibo Wang Peng Xing Rui Wang Wei Cheng Yingming Wang Aojie Li Zixin Yin5 more

摘要

用 AI 构建 AI

Hyper Newsletters

Fukun Yin Shiyu Liu Yucheng Han Zhibo Wang Peng Xing Rui Wang Wei Cheng Yingming Wang Aojie Li Zixin Yin

Fukun Yin Shiyu Liu Yucheng Han Zhibo Wang Peng Xing Rui Wang Wei Cheng Yingming Wang Aojie Li Zixin Yin