HyperAI

摘要

当前主流的文本到图像生成自回归（AR）模型，要么依赖于计算开销巨大的扩散模型来处理连续的图像标记，要么采用向量量化（VQ）方法获取离散标记，但会引入量化误差。本文提出NextStep-1，一种基于140亿参数的自回归模型，搭配1.57亿参数的流匹配（flow matching）头，通过在离散文本标记与连续图像标记上联合训练，并采用下一标记预测目标，进一步推动了自回归范式的进展。NextStep-1在文本到图像生成任务中达到了自回归模型的最先进性能，展现出卓越的高保真图像生成能力。此外，我们的方法在图像编辑任务中也表现出色，充分体现了该统一框架的强大性能与广泛适用性。为促进开放研究，我们将向社区公开发布相关代码与模型。

NextStep-1：面向大规模连续Token的自回归图像生成

NextStep Team Chunrui Han Guopeng Li Jingwei Wu Quan Sun Yan Cai Yuang Peng Zheng Ge Deyu Zhou Haomiao Tang

摘要

代码仓库

用 AI 构建 AI

Hyper Newsletters

NextStep-1：面向大规模连续Token的自回归图像生成

NextStep Team Chunrui Han Guopeng Li Jingwei Wu Quan Sun Yan Cai Yuang Peng Zheng Ge Deyu Zhou Haomiao Tang

摘要

代码仓库

用 AI 构建 AI

Hyper Newsletters

Command Palette

NextStep-1：面向大规模连续Token的自回归图像生成

NextStep Team Chunrui Han Guopeng Li Jingwei Wu Quan Sun Yan Cai Yuang Peng Zheng Ge Deyu Zhou Haomiao Tang40 more

摘要

代码仓库

用 AI 构建 AI

Hyper Newsletters

Command Palette

NextStep-1：面向大规模连续Token的自回归图像生成

NextStep Team Chunrui Han Guopeng Li Jingwei Wu Quan Sun Yan Cai Yuang Peng Zheng Ge Deyu Zhou Haomiao Tang40 more

摘要

代码仓库

用 AI 构建 AI

Hyper Newsletters

NextStep Team Chunrui Han Guopeng Li Jingwei Wu Quan Sun Yan Cai Yuang Peng Zheng Ge Deyu Zhou Haomiao Tang

NextStep Team Chunrui Han Guopeng Li Jingwei Wu Quan Sun Yan Cai Yuang Peng Zheng Ge Deyu Zhou Haomiao Tang