Command Palette

Search for a command to run...

5 个月前

视觉-语言-视觉自动编码器:从扩散模型中进行可扩展的知识蒸馏

Tiezheng Zhang Yitong Li Yu-cheng Chou Jieneng Chen Alan Yuille Chen Wei Junfei Xiao

视觉-语言-视觉自动编码器:从扩散模型中进行可扩展的知识蒸馏

摘要

构建具有强大描述能力的最先进视觉-语言模型(VLMs)通常需要在数十亿个高质量的图像-文本对上进行训练,这需要数百万个GPU小时。本文介绍了一种视觉-语言-视觉(VLV)自动编码器框架,该框架战略性地利用了关键的预训练组件:一个视觉编码器、一个文本到图像(T2I)扩散模型的解码器,以及随后的一个大型语言模型(LLM)。具体而言,我们通过冻结预训练的T2I扩散解码器来建立一个信息瓶颈,从而对语言表示空间进行正则化。我们的VLV管道通过连续嵌入有效地从文本条件扩散模型中提取知识,并通过高质量的重建展示了全面的语义理解能力。此外,通过对预训练的LLM进行微调以将中间语言表示解码为详细描述,我们构建了一个与GPT-4o和Gemini 2.0 Flash等领先模型相当的最先进(SoTA)描述生成器。我们的方法展示了卓越的成本效益,并显著减少了数据需求;主要利用单模态图像进行训练,并最大化现有预训练模型(图像编码器、T2I扩散模型和LLM)的效用,从而避免了对大规模配对图像-文本数据集的需求,将总训练成本控制在1,000美元以内。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
视觉-语言-视觉自动编码器:从扩散模型中进行可扩展的知识蒸馏 | 论文 | HyperAI超神经