
摘要
考虑到TranX在自然语言到代码翻译任务中所采用的序列到序列(seq2seq)架构,我们识别出四个关键组成部分:语法约束、词汇预处理、输入表示以及复制机制。为研究这些组件的影响,我们采用了一种前沿的架构,该架构基于BERT编码器和基于语法的解码器,并提供了该解码器的形式化定义。论文强调了当前自然语言到代码系统中词汇替换组件的重要性。
代码仓库
https://gitlab.com/codegenfact/BertranX
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| code-generation-on-conala | TranX + BERT w/mined | BLEU: 34.2 Exact Match Accuracy: 5.8 |
| code-generation-on-django | TranX + BERT w/mined | Accuracy: 81.03 BLEU Score: 79.86 |