Command Palette
Search for a command to run...

摘要
本报告介绍了通义千问Qwen2系列,这是我们在大语言模型与多模态大模型领域推出的最新成果。我们发布了一套全面的基础语言模型与指令微调语言模型,参数规模覆盖0.5亿至720亿,包含密集模型(dense models)以及混合专家模型(Mixture-of-Experts, MoE)。Qwen2在多数此前公开权重的模型中表现领先,包括其前代模型Qwen1.5,并在语言理解、生成、多语言能力、代码生成、数学推理与逻辑推理等多个基准测试中展现出与闭源模型相媲美的竞争力。旗舰模型Qwen2-72B在基础语言模型模式下表现卓越:在MMLU上达到84.2分,GPQA为37.9分,HumanEval为64.6分,GSM8K为89.5分,BBH为82.4分。其指令微调版本Qwen2-72B-Instruct在MT-Bench上获得9.1分,Arena-Hard为48.1分,LiveCodeBench为35.7分。此外,Qwen2展现出强大的多语言能力,可熟练处理约30种语言,涵盖英语、中文、西班牙语、法语、德语、阿拉伯语、俄语、韩语、日语、泰语、越南语等,充分体现了其广泛的适用性与全球覆盖能力。为推动社区创新并提升模型可及性,我们已将Qwen2系列模型的权重在Hugging Face¹和ModelScope²平台公开发布,并在GitHub³上提供配套的示例代码及其他补充材料。这些平台还提供了量化、微调与部署相关的资源,全面支持各类应用开发与研究工作。
代码仓库
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| arithmetic-reasoning-on-gsm8k | Qwen2-Math-72B-Instruct (greedy) | Accuracy: 96.7 Parameters (Billion): 72 |
| math-word-problem-solving-on-math | Qwen2-Math-72B-Instruct(greedy) | Accuracy: 84.0 Parameters (Billions): 72 |