6 个月前

Gemini1.5：解锁数百万上下文标记的多模态理解

Gemini Team Google

摘要

在本报告中，我们介绍了Gemini 1.5模型系列，代表了新一代高效计算的多模态模型，能够在数百万个上下文标记中回忆并推理出细粒度的信息，包括多个长文档以及数小时的视频和音频。该系列包含两个新模型：（1）更新版的Gemini 1.5 Pro，在大多数能力和基准测试上超过了2月份的版本；（2）Gemini 1.5 Flash，一个更轻量级的变体，旨在提高效率的同时尽量减少质量损失。Gemini 1.5模型在跨模态的长上下文检索任务中实现了接近完美的回忆能力，在长文档问答、长视频问答和长上下文自动语音识别方面提升了现有技术水平，并在广泛的基准测试中达到或超越了Gemini 1.0 Ultra的领先性能。研究Gemini 1.5的长上下文能力极限时，我们发现其在下一个标记预测方面的持续改进以及至少在1000万个标记内实现接近完美的检索（>99%），这比现有的模型如Claude 3.0（20万个标记）和GPT-4 Turbo（12.8万个标记）有了代际飞跃。最后，我们强调了一些实际应用案例，例如Gemini 1.5与专业人士合作完成任务，在10个不同的职业类别中节省了26%到75%的时间，以及大型语言模型在前沿领域的惊人新能力；当提供卡拉芒语（Kalamang，全球使用者不足200人）的语法手册时，该模型能够以与从相同内容学习的人相似的水平将英语翻译成卡拉芒语。

代码仓库

dlvuldet/primevul

pytorch

GitHub 中提及

基准测试

基准	方法	指标
fs-mevqa-on-sme	Gemini-1.5 Pro	#Learning Samples (N): 16 ACC: 40.88 BLEU-4: 41.87 CIDEr: 276.14 Detection: 1.40 METEOR: 34.61 ROUGE-L: 55.90 SPICE: 40.58
long-context-understanding-on-mmneedle	Gemini Pro 1.5	1 Image, 22 Stitching, Exact Accuracy: 90.34 1 Image, 44 Stitching, Exact Accuracy: 39.85 1 Image, 88 Stitching, Exact Accuracy: 29.81 10 Images, 11 Stitching, Exact Accuracy: 89.94 10 Images, 22 Stitching, Exact Accuracy: 45.21 10 Images, 44 Stitching, Exact Accuracy: 6.09 10 Images, 8*8 Stitching, Exact Accuracy: 0.62
question-answering-on-newsqa	Google/Gemini 1.5 Flash	EM: 68.75 F1: 79.91
temporal-relation-extraction-on-vinoground	Gemini-1.5-Pro (CoT)	Group Score: 12.4 Text Score: 37 Video Score: 27.6
temporal-relation-extraction-on-vinoground	Gemini-1.5-Pro	Group Score: 10.2 Text Score: 35.8 Video Score: 22.6
video-question-answering-on-tvbench	Gemini 1.5 Pro	Average Accuracy: 47.6
visual-question-answering-on-mm-vet	Gemini 1.5 Pro (gemini-1.5-pro)	GPT-4 score: 65.8±0.1
visual-question-answering-on-mm-vet	Gemini 1.5 Pro (gemini-1.5-pro-002)	GPT-4 score: 76.9±0.1
visual-question-answering-on-mm-vet-v2	Gemini 1.5 Pro	GPT-4 score: 66.9±0.2
zero-shot-video-question-answer-on-video-mme	Gemini 1.5 Flash	Accuracy (%): 66.3
zero-shot-video-question-answer-on-video-mme	Gemini 1.5 Pro	Accuracy (%): 71.9
zero-shot-video-question-answer-on-video-mme-1	Gemini 1.5 Pro	Accuracy (%): 81.3
zero-shot-video-question-answer-on-video-mme-1	Gemini 1.5 Flash	Accuracy (%): 75.0
zero-shot-video-question-answer-on-zero-shot	Gemini 1.5 Pro	Accuracy (% ): 66.7

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程

即用型 GPU

最优价格

立即开始

Hyper Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

摘要

代码仓库

dlvuldet/primevul

pytorch

GitHub 中提及

基准测试

基准	方法	指标
fs-mevqa-on-sme	Gemini-1.5 Pro	#Learning Samples (N): 16 ACC: 40.88 BLEU-4: 41.87 CIDEr: 276.14 Detection: 1.40 METEOR: 34.61 ROUGE-L: 55.90 SPICE: 40.58
long-context-understanding-on-mmneedle	Gemini Pro 1.5	1 Image, 22 Stitching, Exact Accuracy: 90.34 1 Image, 44 Stitching, Exact Accuracy: 39.85 1 Image, 88 Stitching, Exact Accuracy: 29.81 10 Images, 11 Stitching, Exact Accuracy: 89.94 10 Images, 22 Stitching, Exact Accuracy: 45.21 10 Images, 44 Stitching, Exact Accuracy: 6.09 10 Images, 8*8 Stitching, Exact Accuracy: 0.62
question-answering-on-newsqa	Google/Gemini 1.5 Flash	EM: 68.75 F1: 79.91
temporal-relation-extraction-on-vinoground	Gemini-1.5-Pro (CoT)	Group Score: 12.4 Text Score: 37 Video Score: 27.6
temporal-relation-extraction-on-vinoground	Gemini-1.5-Pro	Group Score: 10.2 Text Score: 35.8 Video Score: 22.6
video-question-answering-on-tvbench	Gemini 1.5 Pro	Average Accuracy: 47.6
visual-question-answering-on-mm-vet	Gemini 1.5 Pro (gemini-1.5-pro)	GPT-4 score: 65.8±0.1
visual-question-answering-on-mm-vet	Gemini 1.5 Pro (gemini-1.5-pro-002)	GPT-4 score: 76.9±0.1
visual-question-answering-on-mm-vet-v2	Gemini 1.5 Pro	GPT-4 score: 66.9±0.2
zero-shot-video-question-answer-on-video-mme	Gemini 1.5 Flash	Accuracy (%): 66.3
zero-shot-video-question-answer-on-video-mme	Gemini 1.5 Pro	Accuracy (%): 71.9
zero-shot-video-question-answer-on-video-mme-1	Gemini 1.5 Pro	Accuracy (%): 81.3
zero-shot-video-question-answer-on-video-mme-1	Gemini 1.5 Flash	Accuracy (%): 75.0
zero-shot-video-question-answer-on-zero-shot	Gemini 1.5 Pro	Accuracy (% ): 66.7

Command Palette

Gemini1.5：解锁数百万上下文标记的多模态理解

Gemini Team Google

摘要

代码仓库

基准测试

用 AI 构建 AI

Hyper Newsletters

Command Palette

Gemini1.5：解锁数百万上下文标记的多模态理解

Gemini Team Google

摘要

代码仓库

基准测试

用 AI 构建 AI

Hyper Newsletters