19 天前

Qwen2.5 技术报告

Qwen2.5 技术报告

摘要

在本报告中,我们推出Qwen2.5——一系列全面的大型语言模型(LLMs),旨在满足多样化应用场景的需求。相较于此前版本,Qwen2.5在预训练与后训练两个阶段均实现了显著提升。在预训练方面,我们已将高质量预训练数据集规模从此前的7万亿个标记(tokens)扩展至18万亿个标记,为模型在常识理解、专业知识掌握以及推理能力等方面奠定了坚实基础。在后训练阶段,我们采用了包含超过100万样本的精细监督微调(supervised fine-tuning),并引入多阶段强化学习策略。这些后训练技术有效增强了模型对人类偏好的对齐能力,显著提升了长文本生成、结构化数据解析以及指令遵循等方面的性能。为有效应对多样且复杂的使用场景,我们推出了多种规模的Qwen2.5大模型系列。开源版本包括基础模型(base models)与指令微调模型(instruction-tuned models),并提供量化版本以适应不同部署需求。此外,针对托管式解决方案,当前还提供两款混合专家模型(Mixture-of-Experts, MoE)变体:Qwen2.5-Turbo与Qwen2.5-Plus,均可通过阿里云模型实验室(Alibaba Cloud Model Studio)获取。Qwen2.5在涵盖语言理解、推理能力、数学计算、编程能力以及人类偏好对齐等多个维度的广泛基准测试中,均展现出顶级性能。具体而言,其开源旗舰模型Qwen2.5-72B-Instruct在多项评测中超越了多个开源及专有模型,并在性能上与当前最先进的开源模型Llama-3-405B-Instruct相媲美——而后者模型规模约为Qwen2.5-72B-Instruct的5倍。与此同时,Qwen2.5-Turbo与Qwen2.5-Plus在保持卓越性能的同时,分别在成本效益上优于GPT-4o-mini与GPT-4o,展现出强劲的竞争力。此外,作为基础模型,Qwen2.5已广泛用于训练一系列专业化模型,包括Qwen2.5-Math(数学专用)、Qwen2.5-Coder(编程专用)、QwQ(轻量级推理模型)以及多模态模型,充分体现了其在构建下一代AI系统中的核心支撑作用。

代码仓库

baichuan-inc/Baichuan-Omni-1.5
pytorch
GitHub 中提及
baichuan-inc/baichuan-audio
pytorch
GitHub 中提及
funaudiollm/inspiremusic
pytorch
GitHub 中提及
qwenlm/qwen2
pytorch
GitHub 中提及
qwenlm/qwen1.5
pytorch
GitHub 中提及
qwenlm/qwen2.5
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
mathematical-reasoning-on-aime24Qwen2.5-72B-Instruct
Acc: 23.3

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Qwen2.5 技术报告 | 论文 | HyperAI超神经