An YangBaosong YangBinyuan HuiBo ZhengBowen YuChang ZhouChengpeng LiChengyuan LiDayiheng LiuFei HuangGuanting DongHaoran WeiHuan LinJialong TangJialin WangJian YangJianhong TuJianwei ZhangJianxin MaJin XuJingren ZhouJinze BaiJinzheng HeJunyang LinKai DangKeming LuKeqin ChenKexin YangMei LiMingfeng XueNa NiPei ZhangPeng WangRu PengRui MenRuize GaoRunji LinShijie WangShuai BaiSinan TanTianhang ZhuTianhao LiTianyu LiuWenbin GeXiaodong DengXiaohuan ZhouXingzhang RenXinyu ZhangXipin WeiXuancheng RenYang FanYang YaoYichang ZhangYu WanYunfei ChuZeyu CuiZhenru ZhangZhihao Fan

摘要
本报告介绍了通义千问系列的最新成果——Qwen2系列,这是我们在大语言模型与多模态大模型领域推出的最新一代模型。我们发布了涵盖从0.5亿到720亿参数规模的完整基础模型与指令微调模型套件,包括密集模型(dense models)以及混合专家模型(Mixture-of-Experts, MoE)架构。Qwen2在多数先前发布的开源模型(包括其前代模型Qwen1.5)中表现更优,并在语言理解、生成、多语言能力、编程、数学推理等多个基准测试中展现出与闭源模型相媲美的竞争力。旗舰模型Qwen2-72B在基础语言模型评测中表现卓越:在MMLU上取得84.2分,在GPQA上达到37.9分,在HumanEval上获得64.6分,在GSM8K上达到89.5分,在BBH上取得82.4分。其指令微调版本Qwen2-72B-Instruct在多项权威评测中同样表现突出:在MT-Bench上获得9.1分,在Arena-Hard上取得48.1分,在LiveCodeBench上达到35.7分。此外,Qwen2展现出强大的多语言能力,支持约30种语言,涵盖英语、中文、西班牙语、法语、德语、阿拉伯语、俄语、韩语、日语、泰语、越南语等,充分体现了其广泛的适用性与全球化部署潜力。为推动社区创新并提升模型可及性,我们已将Qwen2系列模型权重在Hugging Face1和ModelScope2平台公开发布,并在GitHub3上提供了配套的示例代码及其他补充材料。这些平台还集成了量化、微调与部署相关资源,全面支持各类应用开发与学术研究,助力开发者与研究者高效开展创新实践。
代码仓库
qwenlm/qwen2
官方
pytorch
GitHub 中提及
qwenlm/qwen1.5
pytorch
GitHub 中提及
ziye2chen/LLMs-for-Mathematical-Analysis
GitHub 中提及
vicentvankor/sun-shine
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| arithmetic-reasoning-on-gsm8k | Qwen2-Math-72B-Instruct (greedy) | Accuracy: 96.7 Parameters (Billion): 72 |
| math-word-problem-solving-on-math | Qwen2-Math-72B-Instruct(greedy) | Accuracy: 84.0 Parameters (Billions): 72 |