4 个月前

使用APPS测量编码挑战能力

使用APPS测量编码挑战能力

摘要

尽管编程是现代社会中最广泛适用的技能之一,但现代机器学习模型仍然无法为基本问题编写代码解决方案。尽管其重要性显而易见,但在评估代码生成方面的工作却出乎意料地少,且难以准确严格地评估代码生成性能。为了应对这一挑战,我们引入了APPS,一个用于代码生成的基准测试。与之前在更受限环境下的工作不同,我们的基准测试衡量的是模型根据任意自然语言规范生成令人满意的Python代码的能力。类似于公司评估候选软件开发人员的方式,我们通过检查模型生成的代码在测试用例中的表现来对其进行评估。我们的基准测试包括10,000个问题,这些问题从简单的单行解决方案到复杂的算法挑战不等。我们在GitHub和我们的训练集上对大型语言模型进行了微调,并发现随着模型的改进,语法错误的发生率呈指数下降。最近的模型如GPT-Neo可以在大约20%的入门级问题测试用例中通过,因此我们认为机器学习模型现在开始学会如何编程。随着自动代码生成的社会意义在未来几年不断增加,我们的基准测试可以提供一个重要指标来跟踪相关进展。

代码仓库

ncoop57/gpt-code-clippy
jax
GitHub 中提及
codedotal/gpt-code-clippy
jax
GitHub 中提及
hendrycks/apps
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
code-generation-on-appsGPT-Neo 2.7B
Competition Pass@1: 0.00%
Competition Pass@1000: 11.40%
Competition Pass@5: 0.00%
Competition Pass@any: 11.40%
Interview Pass@1: 0.57%
Interview Pass@1000: 9.83%
Interview Pass@5: 0.80%
Interview Pass@any: 9.83%
Introductory Pass@1: 3.90%
Introductory Pass@1000: 27.90%
Introductory Pass@5: 5.50%
Introductory Pass@any: 27.90%

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
使用APPS测量编码挑战能力 | 论文 | HyperAI超神经