3 个月前

CoDesc:一个大规模代码-描述并行数据集

CoDesc:一个大规模代码-描述并行数据集

摘要

自然语言与源代码之间的翻译能够通过使开发者以自然语言方式理解、构思、检索和编写计算机程序,从而助力软件开发。尽管产业界和研究社区对此日益关注,但该任务仍面临诸多挑战,主要源于缺乏适用于训练深度神经网络模型的大规模标准数据集、标准化的噪声清除方法以及统一的评估基准。这导致研究人员不得不自行收集小规模数据集,进而造成已有研究成果之间存在不一致的问题。在本研究中,我们提出了 CoDesc——一个包含420万条Java方法及其自然语言描述的大型平行数据集。通过深入分析,我们识别并剔除了数据集中普遍存在的噪声模式。我们验证了CoDesc在两类互补任务中的优异表现:代码摘要生成与代码搜索。实验结果表明,该数据集可使代码搜索性能提升最高达22%,并在代码摘要生成任务中达到了新的最先进水平。此外,我们还展示了CoDesc在“预训练—微调”范式中的有效性,为构建面向Java语言的预训练语言模型开辟了新路径。为促进后续研究,我们已将该数据集、数据处理工具及评估基准公开发布于 \url{https://github.com/csebuetnlp/CoDesc}。

代码仓库

csebuetnlp/CoDesc
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
code-search-on-codescNBOW
Test MRR: 0.812
code-search-on-codescRNN
Test MRR: 0.766
code-search-on-codescSelf-attention
Test MRR: 0.839
source-code-summarization-on-codescTransformer
BLEU-4: 45.89

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
CoDesc:一个大规模代码-描述并行数据集 | 论文 | HyperAI超神经