3 个月前

自然语言到代码的生成:更少先验知识与更多单语数据

自然语言到代码的生成:更少先验知识与更多单语数据

摘要

语义解析任务的训练数据集通常规模较小,原因在于其标注所需的专业知识水平远高于大多数其他自然语言处理任务。因此,此类应用的模型通常需要在架构或算法中引入额外的先验知识。这种对人工专家的高度依赖限制了自动化程度,并在实际应用中显著增加了开发与维护成本。本文探讨了是否可以仅通过少量针对代码生成的归纳偏置设计,便使通用的基于Transformer的序列到序列(seq2seq)模型实现具有竞争力的性能。通过利用从网络中低成本获取的、相对较大的目标编程语言单语语料库,我们在Django数据集上达到了81.03%的精确匹配准确率,在CoNaLa数据集上取得了32.57的BLEU得分,两项结果在目前已知的研究中均达到最先进水平(SOTA)。这一积极结果表明,未来有望通过更简便的路径在实践中构建高精度的语义解析器。

代码仓库

基准测试

基准方法指标
code-generation-on-conalaBERT + TAE
BLEU: 33.41
code-generation-on-djangoBERT + TAE
Accuracy: 81.03

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
自然语言到代码的生成:更少先验知识与更多单语数据 | 论文 | HyperAI超神经