Command Palette
Search for a command to run...

摘要
现代人工智能(AI)系统由基础模型驱动。本文介绍了一组新的基础模型——Llama 3。这是一组原生支持多语言、编程、推理和工具使用的语言模型集合。我们最大的模型是一个参数量达4050亿的密集型Transformer模型,上下文窗口长度最高可达128,000个token。本文对Llama 3进行了全面的实证评估,结果表明,Llama 3在众多任务上的表现可与GPT-4等领先语言模型相媲美。我们已公开发布Llama 3,包括4050亿参数语言模型的预训练版本和后训练版本,以及用于输入与输出安全防护的Llama Guard 3模型。此外,本文还展示了通过组合式方法将图像、视频和语音能力集成到Llama 3中的实验结果。我们观察到,该方法在图像、视频和语音识别任务上已达到与当前最先进水平相竞争的性能。目前,这些集成多模态能力的模型仍处于开发阶段,尚未进行广泛发布。
代码仓库
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| answerability-prediction-on-peerqa | Llama-3-IT-8B-32k | Macro F1: 0.2881 |
| answerability-prediction-on-peerqa | Llama-3-IT-8B-8k | Macro F1: 0.3112 |
| multi-task-language-understanding-on-mmlu | Llama 3.1 8B (CoT) | Average (%): 73.0 |
| multi-task-language-understanding-on-mmlu | DBRX Instruct 132B (5-shot) | Average (%): 73.7 |
| question-answering-on-peerqa | Llama-3-IT-8B-8k | AlignScore: 0.1098 Prometheus-2 Answer Correctness: 3.1102 Rouge-L: 0.2295 |
| question-answering-on-peerqa | Llama-3-IT-8B-32k | AlignScore: 0.1016 Prometheus-2 Answer Correctness: 3.1673 Rouge-L: 0.2286 |