Command Palette
Search for a command to run...
Xi Chen∗, Xiao Wang∗, Lucas Beyer∗, Alexander Kolesnikov∗, Jialin Wu1, Paul Voigtländer1, Basil Mustafa2, Sebastian Goodman1, Ibrahim Alabdulmohsin2, Piotr Padlewski2, Daniel Salz1, Xi Xiong3, Daniel Vlasic3, Filip Pavetic2, Keran Rong2, Tianli Yu3, Daniel Keysers2, Xiaohua Zhai†, Radu Soricut†

摘要
本文介绍了PaLI-3,这是一种体积更小、速度更快且性能更强的视觉语言模型(VLM),其表现可与比其大10倍的类似模型相媲美。为了达到这一优异性能,我们对比了使用分类目标预训练的视觉变压器(ViT)模型与对比预训练的SigLIP模型。研究发现,虽然在标准图像分类基准测试中略逊一筹,但基于SigLIP的PaLI在各种多模态基准测试中表现出色,尤其是在定位和视觉场景下的文本理解方面。我们将SigLIP图像编码器扩展至20亿参数规模,并在多语言跨模态检索任务上达到了新的最先进水平。我们希望仅包含50亿参数的PaLI-3能够重新激发对复杂VLM基本组件的研究,并推动新一代大规模模型的发展。
代码仓库
kyegomez/PALI3
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| chart-question-answering-on-chartqa | PaLI-3 (w/ OCR) | 1:1 Accuracy: 69.5 |
| chart-question-answering-on-chartqa | PaLI-3 | 1:1 Accuracy: 70 |
| temporal-casual-qa-on-next-qa | PaLI-3 | WUPS: 37.7 |
| visual-question-answering-on-docvqa-test | PaLI-3 | ANLS: 0.876 |
| visual-question-answering-on-docvqa-test | PaLI-3 (w/ OCR) | ANLS: 0.886 |
| visual-question-answering-vqa-on | PaLI-3 | ANLS: 57.8 |
| visual-question-answering-vqa-on | PaLI-3 (w/ OCR) | ANLS: 62.4 |