Command Palette
Search for a command to run...

摘要
在本报告中,我们介绍了 InternVL 1.5,这是一个开源的多模态大语言模型(MLLM),旨在缩小开源模型与商业专有模型在多模态理解能力之间的差距。我们提出了三项简单而有效的改进:(1)强大的视觉编码器:我们针对大规模视觉基础模型 InternViT-6B 探索了一种持续学习策略,显著提升了其视觉理解能力,并使其能够被迁移并复用于不同的大语言模型中;(2)动态高分辨率处理:根据输入图像的宽高比和分辨率,将图像划分为 1 到 40 块,每块大小为 448×448 像素,支持最高达 4K 分辨率的输入;(3)高质量双语数据集:我们精心收集并构建了一个高质量的双语数据集,涵盖常见场景、文档图像等,并配有中英文问答对,显著提升了模型在 OCR 及中文相关任务上的表现。我们通过一系列基准测试与对比实验对 InternVL 1.5 进行了评估。结果表明,相较于开源及专有模型,InternVL 1.5 表现优异,在 18 项基准测试中取得了 8 项的最先进(SOTA)成绩。代码已开源,地址为:https://github.com/OpenGVLab/InternVL。
代码仓库
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| visual-question-answering-on-mm-vet | InternVL 1.2 | GPT-4 score: 48.9 Params: 40B |
| visual-question-answering-on-mm-vet | InternVL 1.5 | GPT-4 score: 62.8 Params: 26B |
| visual-question-answering-on-mm-vet-v2 | InternVL-Chat-V1-5 | GPT-4 score: 51.5±0.2 |