Command Palette
Search for a command to run...
Gemini Team Google

摘要
在本报告中,我们介绍了Gemini 1.5模型系列,代表了新一代高效计算的多模态模型,能够在数百万个上下文标记中回忆并推理出细粒度的信息,包括多个长文档以及数小时的视频和音频。该系列包含两个新模型:(1)更新版的Gemini 1.5 Pro,在大多数能力和基准测试上超过了2月份的版本;(2)Gemini 1.5 Flash,一个更轻量级的变体,旨在提高效率的同时尽量减少质量损失。Gemini 1.5模型在跨模态的长上下文检索任务中实现了接近完美的回忆能力,在长文档问答、长视频问答和长上下文自动语音识别方面提升了现有技术水平,并在广泛的基准测试中达到或超越了Gemini 1.0 Ultra的领先性能。研究Gemini 1.5的长上下文能力极限时,我们发现其在下一个标记预测方面的持续改进以及至少在1000万个标记内实现接近完美的检索(>99%),这比现有的模型如Claude 3.0(20万个标记)和GPT-4 Turbo(12.8万个标记)有了代际飞跃。最后,我们强调了一些实际应用案例,例如Gemini 1.5与专业人士合作完成任务,在10个不同的职业类别中节省了26%到75%的时间,以及大型语言模型在前沿领域的惊人新能力;当提供卡拉芒语(Kalamang,全球使用者不足200人)的语法手册时,该模型能够以与从相同内容学习的人相似的水平将英语翻译成卡拉芒语。
代码仓库
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| fs-mevqa-on-sme | Gemini-1.5 Pro | #Learning Samples (N): 16 ACC: 40.88 BLEU-4: 41.87 CIDEr: 276.14 Detection: 1.40 METEOR: 34.61 ROUGE-L: 55.90 SPICE: 40.58 |
| long-context-understanding-on-mmneedle | Gemini Pro 1.5 | 1 Image, 2*2 Stitching, Exact Accuracy: 90.34 1 Image, 4*4 Stitching, Exact Accuracy: 39.85 1 Image, 8*8 Stitching, Exact Accuracy: 29.81 10 Images, 1*1 Stitching, Exact Accuracy: 89.94 10 Images, 2*2 Stitching, Exact Accuracy: 45.21 10 Images, 4*4 Stitching, Exact Accuracy: 6.09 10 Images, 8*8 Stitching, Exact Accuracy: 0.62 |
| question-answering-on-newsqa | Google/Gemini 1.5 Flash | EM: 68.75 F1: 79.91 |
| temporal-relation-extraction-on-vinoground | Gemini-1.5-Pro (CoT) | Group Score: 12.4 Text Score: 37 Video Score: 27.6 |
| temporal-relation-extraction-on-vinoground | Gemini-1.5-Pro | Group Score: 10.2 Text Score: 35.8 Video Score: 22.6 |
| video-question-answering-on-tvbench | Gemini 1.5 Pro | Average Accuracy: 47.6 |
| visual-question-answering-on-mm-vet | Gemini 1.5 Pro (gemini-1.5-pro) | GPT-4 score: 65.8±0.1 |
| visual-question-answering-on-mm-vet | Gemini 1.5 Pro (gemini-1.5-pro-002) | GPT-4 score: 76.9±0.1 |
| visual-question-answering-on-mm-vet-v2 | Gemini 1.5 Pro | GPT-4 score: 66.9±0.2 |
| zero-shot-video-question-answer-on-video-mme | Gemini 1.5 Flash | Accuracy (%): 66.3 |
| zero-shot-video-question-answer-on-video-mme | Gemini 1.5 Pro | Accuracy (%): 71.9 |
| zero-shot-video-question-answer-on-video-mme-1 | Gemini 1.5 Pro | Accuracy (%): 81.3 |
| zero-shot-video-question-answer-on-video-mme-1 | Gemini 1.5 Flash | Accuracy (%): 75.0 |
| zero-shot-video-question-answer-on-zero-shot | Gemini 1.5 Pro | Accuracy (% ): 66.7 |