Command Palette
Search for a command to run...

摘要
GPT-4o 是一种自回归的通用模型,可接受文本、音频、图像和视频的任意组合作为输入,并生成文本、音频和图像的任意组合作为输出。该模型在文本、视觉和音频任务上实现了端到端的联合训练,意味着所有输入和输出均由同一神经网络处理。GPT-4o 对音频输入的响应时间最短可达 232 毫秒,平均响应时间为 320 毫秒,与人类在对话中的自然反应时间相当。在英文文本和代码任务上,其性能与 GPT-4 Turbo 相当,同时在非英语语言文本处理方面有显著提升,且在 API 调用中速度更快、成本降低 50%。相较于现有模型,GPT-4o 在视觉和音频理解能力方面表现尤为突出。秉承我们致力于安全构建人工智能的承诺,并遵循对白宫所作的自愿性承诺,我们发布了 GPT-4o 系统卡片(System Card),其中包含我们基于准备度框架(Preparedness Framework)开展的评估结果。该系统卡片详细介绍了 GPT-4o 在多个维度上的能力、局限性及安全评估,重点聚焦于语音到语音的交互能力,同时涵盖文本与图像处理能力的评估,以及为确保模型安全性和对齐性所采取的各项措施。此外,我们还纳入了第三方机构对模型潜在危险能力的评估,以及对 GPT-4o 在文本与视觉能力方面可能带来的社会影响的深入讨论。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| optical-character-recognition-on-ocrbench-v2-english | GPT-4o | Accuracy: 47.6 |
| spatial-reasoning-on-6-dof-spatialbench | GPT-4o | Orientation-abs: 25.8 Orientation-rel: 44.2 Position-abs: 28.4 Position-rel: 49.4 Total: 36.2 |
| video-question-answering-on-tvbench | GPT4o 8 frames | Average Accuracy: 39.9 |
| visual-question-answering-vqa-on-vlm2-bench | GPT-4o | Average Score on VLM2-bench (9 subtasks): 60.36 GC-mat: 37.45 GC-trk: 39.27 OC-cnt: 80.62 OC-cpr: 74.17 OC-grp: 57.50 PC-VID: 66.75 PC-cnt: 90.50 PC-cpr: 50.00 PC-grp: 47.00 |