Command Palette
Search for a command to run...

摘要
当前主流的文本到图像生成自回归(AR)模型,要么依赖于计算开销巨大的扩散模型来处理连续的图像标记,要么采用向量量化(VQ)方法获取离散标记,但会引入量化误差。本文提出NextStep-1,一种基于140亿参数的自回归模型,搭配1.57亿参数的流匹配(flow matching)头,通过在离散文本标记与连续图像标记上联合训练,并采用下一标记预测目标,进一步推动了自回归范式的进展。NextStep-1在文本到图像生成任务中达到了自回归模型的最先进性能,展现出卓越的高保真图像生成能力。此外,我们的方法在图像编辑任务中也表现出色,充分体现了该统一框架的强大性能与广泛适用性。为促进开放研究,我们将向社区公开发布相关代码与模型。