6 个月前

自然语言处理

Sajad Norouzi Keyi Tang Yanshuai Cao

摘要

语义解析任务的训练数据集通常规模较小，原因在于其标注所需的专业知识水平远高于大多数其他自然语言处理任务。因此，此类应用的模型通常需要在架构或算法中引入额外的先验知识。这种对人工专家的高度依赖限制了自动化程度，并在实际应用中显著增加了开发与维护成本。本文探讨了是否可以仅通过少量针对代码生成的归纳偏置设计，便使通用的基于Transformer的序列到序列（seq2seq）模型实现具有竞争力的性能。通过利用从网络中低成本获取的、相对较大的目标编程语言单语语料库，我们在Django数据集上达到了81.03%的精确匹配准确率，在CoNaLa数据集上取得了32.57的BLEU得分，两项结果在目前已知的研究中均达到最先进水平（SOTA）。这一积极结果表明，未来有望通过更简便的路径在实践中构建高精度的语义解析器。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

自然语言处理

Sajad Norouzi Keyi Tang Yanshuai Cao

摘要

语义解析任务的训练数据集通常规模较小，原因在于其标注所需的专业知识水平远高于大多数其他自然语言处理任务。因此，此类应用的模型通常需要在架构或算法中引入额外的先验知识。这种对人工专家的高度依赖限制了自动化程度，并在实际应用中显著增加了开发与维护成本。本文探讨了是否可以仅通过少量针对代码生成的归纳偏置设计，便使通用的基于Transformer的序列到序列（seq2seq）模型实现具有竞争力的性能。通过利用从网络中低成本获取的、相对较大的目标编程语言单语语料库，我们在Django数据集上达到了81.03%的精确匹配准确率，在CoNaLa数据集上取得了32.57的BLEU得分，两项结果在目前已知的研究中均达到最先进水平（SOTA）。这一积极结果表明，未来有望通过更简便的路径在实践中构建高精度的语义解析器。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

自然语言到代码的生成：更少先验知识与更多单语数据 | 论文 | HyperAI超神经