Command Palette

Search for a command to run...

6 个月前

GenRecal:从大模型到小模型的重新校准生成视觉-语言模型

Byung-Kwan Lee Ryo Hachiuma Yong Man Ro Yu-Chiang Frank Wang Yueh-Hua Wu

GenRecal:从大模型到小模型的重新校准生成视觉-语言模型

摘要

近期,视觉-语言模型(VLMs)的发展已经利用大型语言模型(LLMs)实现了与封闭源代码系统如GPT-4V相当的性能。然而,由于这些模型巨大的计算需求,将其部署在实际场景中,尤其是在资源受限的设备上,仍然面临诸多挑战。这激发了将大型VLM的知识提炼到更小、更高效的模型中的兴趣。然而,VLM架构的多样性成为这一过程中的一个关键难题,因为不同的VLM基于不同的LLM构建,并且使用了不同类型的标记——这些标记在词汇量、标记分割和标记索引顺序上存在差异。为了解决特定类型VLM的局限性问题,我们提出了一种名为“重校准后的生成”(GenRecal)的新颖通用蒸馏框架。GenRecal引入了一个重校准器(Recalibrator),该组件能够在异构VLM之间对齐和适应特征表示,从而实现不同类型VLM之间的有效知识迁移。通过在多个具有挑战性的基准测试上的广泛实验,我们证明了GenRecal显著提升了基线性能,并最终超越了大规模开放源代码和封闭源代码的VLM。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
GenRecal:从大模型到小模型的重新校准生成视觉-语言模型 | 论文 | HyperAI超神经