Command Palette
Search for a command to run...

摘要
当前,高性能图像生成模型的格局主要由专有系统主导,例如 Nano Banana Pro 和 Seedream 4.0。尽管以 Qwen-Image、Hunyuan-Image-3.0 和 FLUX.2 为代表的领先开源模型在参数量上达到 200 亿至 800 亿级别,但其庞大的模型规模使其难以在消费级硬件上进行推理与微调,实用性受限。为填补这一空白,我们提出 Z-Image——一种基于可扩展单流扩散 Transformer(Scalable Single-Stream Diffusion Transformer, S3-DiT)架构的高效 60 亿参数基础生成模型,挑战“唯规模论”的范式。通过系统性优化模型全生命周期,涵盖精心构建的数据基础设施与精简高效的训练流程,我们仅用 31.4 万张 H800 GPU 小时(约 63 万美元)即完成了完整的训练流程。在此基础上,我们采用一种少步数蒸馏方案并结合奖励后训练(reward post-training),进一步推出了 Z-Image-Turbo 模型,可在企业级 H800 GPU 上实现亚秒级推理延迟,同时兼容消费级硬件(显存低于 16GB),显著降低部署门槛。此外,我们提出的全场景预训练(omni-pre-training)范式,也使得 Z-Image-Edit 编辑模型得以高效训练,展现出卓越的指令遵循能力。定性与定量实验均表明,Z-Image 在多个维度上的性能可与甚至超越当前主流竞争模型。尤为突出的是,Z-Image 在真实感图像生成与双语文本渲染方面表现极为出色,生成结果媲美顶级商业模型。这充分证明:在显著降低计算开销的前提下,仍可实现业界领先水平的生成效果。为推动可及性高、成本可控且性能先进的生成模型发展,我们已公开发布 Z-Image 的代码、模型权重及在线演示,欢迎社区共同参与与推进。