HyperAI超神经

摘要

在本报告中，我们推出Qwen2.5，这是一系列全面的大型语言模型（LLMs），旨在满足多样化的应用需求。相较于此前版本，Qwen2.5在预训练和后训练两个阶段均实现了显著提升。在预训练方面，我们已将高质量预训练数据集从此前的7万亿个token扩展至18万亿个token，为模型在常识理解、专业知识和推理能力方面奠定了坚实基础。在后训练阶段，我们采用了包含超过100万样本的复杂监督微调（Supervised Fine-tuning），并结合多阶段强化学习（Reinforcement Learning）方法。这些后训练技术有效增强了模型对人类偏好的对齐能力，尤其在长文本生成、结构化数据解析和指令遵循等方面表现突出。为有效应对多样且复杂的使用场景，我们推出了多种规模的Qwen2.5大模型系列。开放权重版本包括基础模型（base models）和指令微调模型（instruction-tuned models），并提供量化版本以适应不同部署需求。此外，针对托管式解决方案，当前已上线两款基于混合专家（Mixture-of-Experts, MoE）架构的专有模型：Qwen2.5-Turbo与Qwen2.5-Plus，均可通过阿里云Model Studio获取。Qwen2.5在涵盖语言理解、推理能力、数学计算、代码生成、人类偏好对齐等多个维度的广泛基准测试中，均展现出顶级性能。具体而言，其开放权重旗舰模型Qwen2.5-72B-Instruct在多项指标上超越了多个开源及闭源模型，性能可与当前最先进的开源模型Llama-3-405B-Instruct相媲美，而后者参数量约为Qwen2.5-72B-Instruct的5倍。Qwen2.5-Turbo与Qwen2.5-Plus在保持卓越性能的同时，分别在成本效益上优于GPT-4o-mini和GPT-4o，展现出极强的竞争力。此外，作为基础模型，Qwen2.5已广泛用于训练多个垂直领域专用模型，包括Qwen2.5-Math（数学专项）、Qwen2.5-Coder（代码生成）、QwQ（多轮对话与推理）以及多模态模型，充分体现了其在构建下一代AI系统中的核心支撑作用。

基准测试

基准	方法	指标
mathematical-reasoning-on-aime24	Qwen2.5-72B-Instruct	Acc: 23.3

摘要

基准测试

基准	方法	指标
mathematical-reasoning-on-aime24	Qwen2.5-72B-Instruct	Acc: 23.3

Qwen2.5 技术报告

Qwen An Yang Baosong Yang Beichen Zhang Binyuan Hui Bo Zheng Bowen Yu Chengyuan Li Dayiheng Liu Fei Huang

摘要

代码仓库

基准测试

用 AI 构建 AI

Hyper Newsletters

Qwen2.5 技术报告

Qwen An Yang Baosong Yang Beichen Zhang Binyuan Hui Bo Zheng Bowen Yu Chengyuan Li Dayiheng Liu Fei Huang

摘要

代码仓库

基准测试

用 AI 构建 AI

Hyper Newsletters

Command Palette

Qwen2.5 技术报告

Qwen An Yang Baosong Yang Beichen Zhang Binyuan Hui Bo Zheng Bowen Yu Chengyuan Li Dayiheng Liu Fei Huang32 more

摘要

代码仓库

基准测试

用 AI 构建 AI

Hyper Newsletters

Command Palette

Qwen2.5 技术报告

Qwen An Yang Baosong Yang Beichen Zhang Binyuan Hui Bo Zheng Bowen Yu Chengyuan Li Dayiheng Liu Fei Huang32 more

摘要

代码仓库

基准测试

用 AI 构建 AI

Hyper Newsletters

Qwen An Yang Baosong Yang Beichen Zhang Binyuan Hui Bo Zheng Bowen Yu Chengyuan Li Dayiheng Liu Fei Huang

Qwen An Yang Baosong Yang Beichen Zhang Binyuan Hui Bo Zheng Bowen Yu Chengyuan Li Dayiheng Liu Fei Huang