Command Palette

Search for a command to run...

6 个月前

Gemini:一个功能强大的多模态模型家族

Gemini Team

Gemini:一个功能强大的多模态模型家族

摘要

本报告介绍了一种新的多模态模型家族——Gemini,该模型在图像、音频、视频和文本理解方面表现出卓越的能力。Gemini家族包括Ultra、Pro和Nano三种尺寸的模型,适用于从复杂推理任务到设备端内存受限应用场景的各种需求。在广泛的基准测试中,我们最强大的Gemini Ultra模型在32个基准中的30个上取得了最先进的成果——特别是首次在广受研究的考试基准MMLU上达到了人类专家水平,并在我们考察的20个多模态基准测试中均提升了现有技术水平。我们认为,Gemini家族在跨模态推理和语言理解方面的全新能力将支持广泛的应用场景。我们还讨论了通过Gemini、Gemini Advanced、Google AI Studio和Cloud Vertex AI等服务负责任地进行Gemini模型的后期训练和部署的方法。

代码仓库

valdecy/pybibx
tf
GitHub 中提及

基准测试

基准方法指标
arithmetic-reasoning-on-gsm8kGemini Pro (maj1@32)
Accuracy: 86.5
chart-question-answering-on-chartqaGemini Ultra
1:1 Accuracy: 80.8
long-context-understanding-on-mmneedleGemini Pro 1.0
1 Image, 2*2 Stitching, Exact Accuracy: 29.53
1 Image, 4*4 Stitching, Exact Accuracy: 24.78
1 Image, 8*8 Stitching, Exact Accuracy: 2.11
10 Images, 1*1 Stitching, Exact Accuracy: 16.25
10 Images, 2*2 Stitching, Exact Accuracy: 4.82
10 Images, 4*4 Stitching, Exact Accuracy: 0.4
10 Images, 8*8 Stitching, Exact Accuracy: 0
math-word-problem-solving-on-mathGemini Pro (4-shot)
Accuracy: 32.6
math-word-problem-solving-on-mathGemini Ultra (4-shot)
Accuracy: 53.2
temporal-casual-qa-on-next-qaGemini Ultra (zero-shot)
WUPS: 29.9
temporal-casual-qa-on-next-qaGemini Pro (zero-shot)
WUPS: 28.0
visual-question-answering-on-mm-vetGemini 1.0 Pro Vision (gemini-pro-vision)
GPT-4 score: 64.3±0.4
visual-question-answering-on-mm-vet-v2Gemini Pro Vision
GPT-4 score: 57.2±0.2
visual-question-answering-vqa-onGemini Ultra (pixel only)
ANLS: 80.3
visual-question-answering-vqa-on-ai2dGemini Ultra
EM: 79.5

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Gemini:一个功能强大的多模态模型家族 | 论文 | HyperAI超神经