
摘要
在本报告中,我们推出Qwen2.5——一系列全面的大型语言模型(LLMs),旨在满足多样化应用场景的需求。相较于此前版本,Qwen2.5在预训练与后训练两个阶段均实现了显著提升。在预训练方面,我们已将高质量预训练数据集规模从此前的7万亿个标记(tokens)扩展至18万亿个标记,为模型在常识理解、专业知识掌握以及推理能力等方面奠定了坚实基础。在后训练阶段,我们采用了包含超过100万样本的精细监督微调(supervised fine-tuning),并引入多阶段强化学习策略。这些后训练技术有效增强了模型对人类偏好的对齐能力,显著提升了长文本生成、结构化数据解析以及指令遵循等方面的性能。为有效应对多样且复杂的使用场景,我们推出了多种规模的Qwen2.5大模型系列。开源版本包括基础模型(base models)与指令微调模型(instruction-tuned models),并提供量化版本以适应不同部署需求。此外,针对托管式解决方案,当前还提供两款混合专家模型(Mixture-of-Experts, MoE)变体:Qwen2.5-Turbo与Qwen2.5-Plus,均可通过阿里云模型实验室(Alibaba Cloud Model Studio)获取。Qwen2.5在涵盖语言理解、推理能力、数学计算、编程能力以及人类偏好对齐等多个维度的广泛基准测试中,均展现出顶级性能。具体而言,其开源旗舰模型Qwen2.5-72B-Instruct在多项评测中超越了多个开源及专有模型,并在性能上与当前最先进的开源模型Llama-3-405B-Instruct相媲美——而后者模型规模约为Qwen2.5-72B-Instruct的5倍。与此同时,Qwen2.5-Turbo与Qwen2.5-Plus在保持卓越性能的同时,分别在成本效益上优于GPT-4o-mini与GPT-4o,展现出强劲的竞争力。此外,作为基础模型,Qwen2.5已广泛用于训练一系列专业化模型,包括Qwen2.5-Math(数学专用)、Qwen2.5-Coder(编程专用)、QwQ(轻量级推理模型)以及多模态模型,充分体现了其在构建下一代AI系统中的核心支撑作用。
代码仓库
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| mathematical-reasoning-on-aime24 | Qwen2.5-72B-Instruct | Acc: 23.3 |