3 个月前

通义千问Qwen2 技术报告

通义千问Qwen2 技术报告

摘要

本报告介绍了通义千问系列的最新成果——Qwen2系列,这是我们在大语言模型与多模态大模型领域推出的最新一代模型。我们发布了涵盖从0.5亿到720亿参数规模的完整基础模型与指令微调模型套件,包括密集模型(dense models)以及混合专家模型(Mixture-of-Experts, MoE)架构。Qwen2在多数先前发布的开源模型(包括其前代模型Qwen1.5)中表现更优,并在语言理解、生成、多语言能力、编程、数学推理等多个基准测试中展现出与闭源模型相媲美的竞争力。旗舰模型Qwen2-72B在基础语言模型评测中表现卓越:在MMLU上取得84.2分,在GPQA上达到37.9分,在HumanEval上获得64.6分,在GSM8K上达到89.5分,在BBH上取得82.4分。其指令微调版本Qwen2-72B-Instruct在多项权威评测中同样表现突出:在MT-Bench上获得9.1分,在Arena-Hard上取得48.1分,在LiveCodeBench上达到35.7分。此外,Qwen2展现出强大的多语言能力,支持约30种语言,涵盖英语、中文、西班牙语、法语、德语、阿拉伯语、俄语、韩语、日语、泰语、越南语等,充分体现了其广泛的适用性与全球化部署潜力。为推动社区创新并提升模型可及性,我们已将Qwen2系列模型权重在Hugging Face1和ModelScope2平台公开发布,并在GitHub3上提供了配套的示例代码及其他补充材料。这些平台还集成了量化、微调与部署相关资源,全面支持各类应用开发与学术研究,助力开发者与研究者高效开展创新实践。

基准测试

基准方法指标
arithmetic-reasoning-on-gsm8kQwen2-Math-72B-Instruct (greedy)
Accuracy: 96.7
Parameters (Billion): 72
math-word-problem-solving-on-mathQwen2-Math-72B-Instruct(greedy)
Accuracy: 84.0
Parameters (Billions): 72

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
通义千问Qwen2 技术报告 | 论文 | HyperAI超神经