3 个月前

PECC:问题提取与编码挑战

PECC:问题提取与编码挑战

摘要

近年来,大型语言模型(LLMs)在代码生成、问题求解与推理等多种任务中展现出卓越的能力。现有评估基准通常将各项任务孤立评估,然而,LLMs在理解叙述性任务、识别潜在问题并生成相应代码解决方案方面的能力,仍缺乏系统性探索。为填补这一空白,我们提出了PECC——一个基于《Advent of Code》(AoC)与Project Euler挑战构建的新型基准,包含2396个问题。与传统基准不同,PECC要求LLMs能够解析嵌入自然语言叙述中的问题,提取任务需求,并生成可执行的代码。本数据集的一个关键特征在于,其采用基于对话的自然语言提示方式,引入了真实场景中常见的指令模糊性,从而提升了评估的复杂性。实验结果表明,模型在叙述性问题与中性问题上的表现存在显著差异:以GPT-3.5-Turbo为例,其在AoC挑战中通过率为50%,而在基于数学的Project Euler子集上仅达到8%。通过系统探测LLMs能力的边界,本基准为评估和监测LLMs作为通用问题求解器的后续发展提供了有力框架。

代码仓库

hallerpatrick/pecc
官方
GitHub 中提及

基准测试

基准方法指标
code-generation-on-peccLlama-3-8B-Instruct
Pass@3: 3.1
code-generation-on-peccClaude 3 Haiku
Pass@3: 27.67
code-generation-on-peccchat-bison
Pass@3: 8.48
code-generation-on-peccGPT-3.5 Turbo
Pass@3: 23.75
code-generation-on-peccWizardLM-2-7B
Pass@3: 3.72
code-generation-on-peccMixtral-8x7B-Instruct
Pass@3: 8.35
code-generation-on-pecccodechat-bison
Pass@3: 11.39
code-generation-on-peccPhi-3-mini-128k-instruct
Pass@3: 7.18

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
PECC:问题提取与编码挑战 | 论文 | HyperAI超神经