
摘要
代码大语言模型(Code LLMs),例如 StarCoder,在代码相关任务中已展现出卓越的性能。然而,大多数现有模型仅在大量原始代码数据上进行预训练,而未经过指令微调。本文提出 WizardCoder,通过将 Evol-Instruct 方法适配至代码领域,为代码大语言模型引入了复杂的指令微调能力。在四个主流代码生成基准测试——HumanEval、HumanEval+、MBPP 和 DS-1000 上进行的全面实验表明,本模型展现出卓越的能力,显著超越所有其他开源代码大语言模型。此外,该模型在 HumanEval 和 HumanEval+ 上的表现甚至优于目前最大的闭源大语言模型,包括 Anthropic 的 Claude 与 Google 的 Bard。本文的代码、模型权重及数据均已公开,可访问 https://github.com/nlpxucan/WizardLM 获取。
代码仓库
nlpxucan/wizardlm
官方
pytorch
GitHub 中提及
kyle-lyu/codeact
pytorch
GitHub 中提及
kyle-lyu/data-efficient-finetuning
pytorch
GitHub 中提及
nickrosh/evol-teacher
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| code-generation-on-codecontests | WizardCoder-15B | Test Set pass@1: 1.11 Test Set pass@5: 3.18 Val Set pass@1: 1.98 Val Set pass@5: 3.27 |
| code-generation-on-mbpp | WizardCoder 15B | Accuracy: 51.8 |