Command Palette

Search for a command to run...

6 个月前

Gemini1.5:解锁数百万上下文标记的多模态理解

Gemini Team Google

Gemini1.5:解锁数百万上下文标记的多模态理解

摘要

在本报告中,我们介绍了Gemini 1.5模型系列,代表了新一代高效计算的多模态模型,能够在数百万个上下文标记中回忆并推理出细粒度的信息,包括多个长文档以及数小时的视频和音频。该系列包含两个新模型:(1)更新版的Gemini 1.5 Pro,在大多数能力和基准测试上超过了2月份的版本;(2)Gemini 1.5 Flash,一个更轻量级的变体,旨在提高效率的同时尽量减少质量损失。Gemini 1.5模型在跨模态的长上下文检索任务中实现了接近完美的回忆能力,在长文档问答、长视频问答和长上下文自动语音识别方面提升了现有技术水平,并在广泛的基准测试中达到或超越了Gemini 1.0 Ultra的领先性能。研究Gemini 1.5的长上下文能力极限时,我们发现其在下一个标记预测方面的持续改进以及至少在1000万个标记内实现接近完美的检索(>99%),这比现有的模型如Claude 3.0(20万个标记)和GPT-4 Turbo(12.8万个标记)有了代际飞跃。最后,我们强调了一些实际应用案例,例如Gemini 1.5与专业人士合作完成任务,在10个不同的职业类别中节省了26%到75%的时间,以及大型语言模型在前沿领域的惊人新能力;当提供卡拉芒语(Kalamang,全球使用者不足200人)的语法手册时,该模型能够以与从相同内容学习的人相似的水平将英语翻译成卡拉芒语。

代码仓库

dlvuldet/primevul
pytorch
GitHub 中提及

基准测试

基准方法指标
fs-mevqa-on-smeGemini-1.5 Pro
#Learning Samples (N): 16
ACC: 40.88
BLEU-4: 41.87
CIDEr: 276.14
Detection: 1.40
METEOR: 34.61
ROUGE-L: 55.90
SPICE: 40.58
long-context-understanding-on-mmneedleGemini Pro 1.5
1 Image, 2*2 Stitching, Exact Accuracy: 90.34
1 Image, 4*4 Stitching, Exact Accuracy: 39.85
1 Image, 8*8 Stitching, Exact Accuracy: 29.81
10 Images, 1*1 Stitching, Exact Accuracy: 89.94
10 Images, 2*2 Stitching, Exact Accuracy: 45.21
10 Images, 4*4 Stitching, Exact Accuracy: 6.09
10 Images, 8*8 Stitching, Exact Accuracy: 0.62
question-answering-on-newsqaGoogle/Gemini 1.5 Flash
EM: 68.75
F1: 79.91
temporal-relation-extraction-on-vinogroundGemini-1.5-Pro (CoT)
Group Score: 12.4
Text Score: 37
Video Score: 27.6
temporal-relation-extraction-on-vinogroundGemini-1.5-Pro
Group Score: 10.2
Text Score: 35.8
Video Score: 22.6
video-question-answering-on-tvbenchGemini 1.5 Pro
Average Accuracy: 47.6
visual-question-answering-on-mm-vetGemini 1.5 Pro (gemini-1.5-pro)
GPT-4 score: 65.8±0.1
visual-question-answering-on-mm-vetGemini 1.5 Pro (gemini-1.5-pro-002)
GPT-4 score: 76.9±0.1
visual-question-answering-on-mm-vet-v2Gemini 1.5 Pro
GPT-4 score: 66.9±0.2
zero-shot-video-question-answer-on-video-mmeGemini 1.5 Flash
Accuracy (%): 66.3
zero-shot-video-question-answer-on-video-mmeGemini 1.5 Pro
Accuracy (%): 71.9
zero-shot-video-question-answer-on-video-mme-1Gemini 1.5 Pro
Accuracy (%): 81.3
zero-shot-video-question-answer-on-video-mme-1Gemini 1.5 Flash
Accuracy (%): 75.0
zero-shot-video-question-answer-on-zero-shotGemini 1.5 Pro
Accuracy (% ): 66.7

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Gemini1.5:解锁数百万上下文标记的多模态理解 | 论文 | HyperAI超神经