6 个月前

自然语言处理

Patrick Haller Jonas Golde Alan Akbik

摘要

近年来，大型语言模型（LLMs）在代码生成、问题求解与推理等多种任务中展现出卓越的能力。现有评估基准通常将各项任务孤立评估，然而，LLMs在理解叙述性任务、识别潜在问题并生成相应代码解决方案方面的能力，仍缺乏系统性探索。为填补这一空白，我们提出了PECC——一个基于《Advent of Code》（AoC）与Project Euler挑战构建的新型基准，包含2396个问题。与传统基准不同，PECC要求LLMs能够解析嵌入自然语言叙述中的问题，提取任务需求，并生成可执行的代码。本数据集的一个关键特征在于，其采用基于对话的自然语言提示方式，引入了真实场景中常见的指令模糊性，从而提升了评估的复杂性。实验结果表明，模型在叙述性问题与中性问题上的表现存在显著差异：以GPT-3.5-Turbo为例，其在AoC挑战中通过率为50%，而在基于数学的Project Euler子集上仅达到8%。通过系统探测LLMs能力的边界，本基准为评估和监测LLMs作为通用问题求解器的后续发展提供了有力框架。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

自然语言处理

Patrick Haller Jonas Golde Alan Akbik

摘要

近年来，大型语言模型（LLMs）在代码生成、问题求解与推理等多种任务中展现出卓越的能力。现有评估基准通常将各项任务孤立评估，然而，LLMs在理解叙述性任务、识别潜在问题并生成相应代码解决方案方面的能力，仍缺乏系统性探索。为填补这一空白，我们提出了PECC——一个基于《Advent of Code》（AoC）与Project Euler挑战构建的新型基准，包含2396个问题。与传统基准不同，PECC要求LLMs能够解析嵌入自然语言叙述中的问题，提取任务需求，并生成可执行的代码。本数据集的一个关键特征在于，其采用基于对话的自然语言提示方式，引入了真实场景中常见的指令模糊性，从而提升了评估的复杂性。实验结果表明，模型在叙述性问题与中性问题上的表现存在显著差异：以GPT-3.5-Turbo为例，其在AoC挑战中通过率为50%，而在基于数学的Project Euler子集上仅达到8%。通过系统探测LLMs能力的边界，本基准为评估和监测LLMs作为通用问题求解器的后续发展提供了有力框架。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供