Command Palette
Search for a command to run...

摘要
在这项工作中,我们介绍了OmniGen2,这是一款多功能且开源的生成模型,旨在为多种生成任务提供统一的解决方案,包括文本到图像生成、图像编辑和上下文生成。与OmniGen v1不同,OmniGen2为文本和图像模态设计了两条独立的解码路径,采用了非共享参数和分离的图像分词器。这一设计使得OmniGen2能够在现有的多模态理解模型基础上进行构建,而无需重新适应VAE输入,从而保留了原有的文本生成能力。为了促进OmniGen2的训练,我们开发了全面的数据构建管道,涵盖了图像编辑和上下文生成数据。此外,我们引入了一种专门针对图像生成任务的反射机制,并基于OmniGen2精心策划了一个专用的反射数据集。尽管其参数规模相对较小,OmniGen2在多个任务基准测试中仍取得了具有竞争力的结果,包括文本到图像生成和图像编辑。为了进一步评估上下文生成(也称为主题驱动任务),我们引入了一个新的基准测试——OmniContext。在一致性方面,OmniGen2在开源模型中达到了最先进的性能。我们将发布我们的模型、训练代码、数据集和数据构建管道,以支持该领域的未来研究。项目页面:https://vectorspacelab.github.io/OmniGen2;GitHub链接:https://github.com/VectorSpaceLab/OmniGen2