3 个月前

CloudEval-YAML:一种面向云配置生成的实用基准

CloudEval-YAML:一种面向云配置生成的实用基准

摘要

在云计算生态蓬勃发展以及基于大语言模型(LLM)的代码生成工具日益普及的背景下,针对云原生应用中的代码生成任务仍缺乏有效的基准评测体系。为应对这一需求,我们提出了 CloudEval-YAML——一个面向云配置生成的实用型基准测试数据集。CloudEval-YAML 通过聚焦 YAML 格式,解决了云原生工具中配置多样性的挑战,因为 YAML 已成为众多云原生工具的事实标准。该基准的构建充分考虑了实际应用需求:数据集包含由人工编写的、带有单元测试的实际场景问题,确保了任务的真实性和实用性。为进一步提升实用性,我们对问题表述进行了精炼、简洁化和中英双语化处理。整个数据集共包含 1011 个问题,完成这些任务预计需超过 1200 个人工工时。为提升评估过程的效率,我们构建了一个可扩展的评估平台,相较于单机运行,实现了高达 20 倍的加速效果。据我们所知,CloudEval-YAML 是首个专为云原生应用设计的手写问题数据集。我们对 12 个主流大语言模型进行了深入评估,不仅加深了对任务挑战与模型能力的理解,还提炼出一系列有效提升任务性能、降低使用成本的方法。

代码仓库

基准测试

基准方法指标
benchmarking-on-cloudeval-yamlGPT-4 Turbo
ACC: 0.561

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
CloudEval-YAML:一种面向云配置生成的实用基准 | 论文 | HyperAI超神经