4 个月前

评估训练于代码的大规模语言模型

评估训练于代码的大规模语言模型

摘要

我们介绍了Codex,这是一种在GitHub上公开可用的代码基础上微调的GPT语言模型,并研究了其编写Python代码的能力。Codex的一个特定生产版本为GitHub Copilot提供支持。在HumanEval(一个我们发布的用于评估从文档字符串合成程序的功能正确性的新数据集)上,我们的模型解决了28.8%的问题,而GPT-3解决了0%的问题,GPT-J解决了11.4%的问题。此外,我们发现从模型中重复采样是一种令人惊讶的有效策略,可以生成解决复杂提示的工作解决方案。使用这种方法,我们在每个问题上采样100次的情况下解决了70.2%的问题。对我们的模型进行仔细分析后,揭示了其局限性,包括难以处理描述长操作链的文档字符串以及将操作绑定到变量上的困难。最后,我们讨论了部署强大的代码生成技术可能带来的更广泛影响,涵盖了安全、安全性和经济方面。

代码仓库

openai/human-eval
官方
GitHub 中提及
codefuse-ai/codefuse-evaluation
pytorch
GitHub 中提及
2796gaurav/human-eval
GitHub 中提及
ncoop57/gpt-code-clippy
jax
GitHub 中提及
superli3/codenavi
tf
GitHub 中提及
codedotal/gpt-code-clippy
jax
GitHub 中提及
fsoft-ai4code/codecapybara
pytorch
GitHub 中提及
glouppe/info8010-deep-learning
pytorch
GitHub 中提及
THUDM/CodeGeeX
mindspore
GitHub 中提及
vhellendoorn/code-lms
GitHub 中提及
superli3/CYRMPR
tf
GitHub 中提及

基准测试

基准方法指标
code-generation-on-appsCodex 12B (Raw)
Competition Pass@1: 0.50%
Competition Pass@1000: 13.51%
Competition Pass@5: 1.00%
Competition Pass@any: 13.51%
Interview Pass@1: 1.00%
Interview Pass@1000: 13.15%
Interview Pass@5: 1.73%
Interview Pass@any: 13.15%
Introductory Pass@1: 5.60%
Introductory Pass@1000: 35.20%
Introductory Pass@5: 9.20%
Introductory Pass@any: 35.20%
multi-task-language-understanding-on-bbh-algcode-davinci-002 175B (CoT)
Average (%): 73.9
multi-task-language-understanding-on-bbh-nlpcode-davinci-002 175B (CoT)
Average (%): 73.5

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
评估训练于代码的大规模语言模型 | 论文 | HyperAI超神经