Command Palette

Search for a command to run...

4 个月前

NextStep-1:面向大规模连续Token的自回归图像生成

NextStep-1:面向大规模连续Token的自回归图像生成

摘要

当前主流的文本到图像生成自回归(AR)模型,要么依赖于计算开销巨大的扩散模型来处理连续的图像标记,要么采用向量量化(VQ)方法获取离散标记,但会引入量化误差。本文提出NextStep-1,一种基于140亿参数的自回归模型,搭配1.57亿参数的流匹配(flow matching)头,通过在离散文本标记与连续图像标记上联合训练,并采用下一标记预测目标,进一步推动了自回归范式的进展。NextStep-1在文本到图像生成任务中达到了自回归模型的最先进性能,展现出卓越的高保真图像生成能力。此外,我们的方法在图像编辑任务中也表现出色,充分体现了该统一框架的强大性能与广泛适用性。为促进开放研究,我们将向社区公开发布相关代码与模型。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
NextStep-1:面向大规模连续Token的自回归图像生成 | 论文 | HyperAI超神经