Command Palette
Search for a command to run...
潜在扩散模型 SVG
Self-supervised representations for Visual Generation(SVG)是由清华大学联合快手可灵团队于 2025 年 10 月联合提出的,相关研究成果发表于论文「Latent Diffusion Model without Variational Autoencoder」。
SVG 是一种无需变分自编码器(VAE)的全新潜在扩散模型,它释放了用于视觉生成的自监督表示。该模型通过利用冻结的 DINO 特征构建具有明确语义可区分性的特征空间,同时一个轻量级的残差分支捕获细粒度细节以实现高质量重建。扩散模型直接在这个语义结构的潜在空间上进行训练,以促进更高效的学习。因此,SVG 能够加速扩散训练,支持少步采样,并提升生成质量。