摘要

基准数据集对加速编程语言任务的研究具有重要意义。本文介绍了CodeXGLUE，这是一个旨在促进程序理解和生成领域机器学习研究的基准数据集。CodeXGLUE 包含了14个数据集中10项任务的集合，以及一个用于模型评估和比较的平台。CodeXGLUE 还提供了三种基线系统，包括BERT风格、GPT风格和编码器-解码器模型，以便研究人员能够方便地使用该平台。这些数据和基线系统的可用性有助于新方法的开发和验证，这些新方法可以应用于各种程序理解和生成问题。

源 PDF