Command Palette

Search for a command to run...

6 个月前

GPT-4o 系统卡

GPT-4o 系统卡

摘要

GPT-4o 是一种自回归的通用模型,可接受文本、音频、图像和视频的任意组合作为输入,并生成文本、音频和图像的任意组合作为输出。该模型在文本、视觉和音频任务上实现了端到端的联合训练,意味着所有输入和输出均由同一神经网络处理。GPT-4o 对音频输入的响应时间最短可达 232 毫秒,平均响应时间为 320 毫秒,与人类在对话中的自然反应时间相当。在英文文本和代码任务上,其性能与 GPT-4 Turbo 相当,同时在非英语语言文本处理方面有显著提升,且在 API 调用中速度更快、成本降低 50%。相较于现有模型,GPT-4o 在视觉和音频理解能力方面表现尤为突出。秉承我们致力于安全构建人工智能的承诺,并遵循对白宫所作的自愿性承诺,我们发布了 GPT-4o 系统卡片(System Card),其中包含我们基于准备度框架(Preparedness Framework)开展的评估结果。该系统卡片详细介绍了 GPT-4o 在多个维度上的能力、局限性及安全评估,重点聚焦于语音到语音的交互能力,同时涵盖文本与图像处理能力的评估,以及为确保模型安全性和对齐性所采取的各项措施。此外,我们还纳入了第三方机构对模型潜在危险能力的评估,以及对 GPT-4o 在文本与视觉能力方面可能带来的社会影响的深入讨论。

基准测试

基准方法指标
optical-character-recognition-on-ocrbench-v2-englishGPT-4o
Accuracy: 47.6
spatial-reasoning-on-6-dof-spatialbenchGPT-4o
Orientation-abs: 25.8
Orientation-rel: 44.2
Position-abs: 28.4
Position-rel: 49.4
Total: 36.2
video-question-answering-on-tvbenchGPT4o 8 frames
Average Accuracy: 39.9
visual-question-answering-vqa-on-vlm2-benchGPT-4o
Average Score on VLM2-bench (9 subtasks): 60.36
GC-mat: 37.45
GC-trk: 39.27
OC-cnt: 80.62
OC-cpr: 74.17
OC-grp: 57.50
PC-VID: 66.75
PC-cnt: 90.50
PC-cpr: 50.00
PC-grp: 47.00

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
GPT-4o 系统卡 | 论文 | HyperAI超神经