4 个月前

基于字符的数据到文本生成中的复制机制与定制训练

基于字符的数据到文本生成中的复制机制与定制训练

摘要

近年来,许多不同的方法都集中在使用深度循环神经网络进行自然语言生成。目前最广泛使用的序列到序列神经方法是基于词汇的:因此,它们需要一个预处理步骤,称为去词汇化(反之为再词汇化),以处理不常见或未知的词汇。然而,这些处理形式导致了依赖于所使用词汇表且不完全神经化的模型。在本研究中,我们提出了一种端到端的序列到序列模型,该模型具有注意力机制,能够在字符级别上读取和生成文本,从而不再需要去词汇化、分词甚至小写转换。此外,由于字符构成了每段文本的共同“构建块”,这种方法还允许对文本生成采取更为通用的策略,并能够利用迁移学习进行训练。这些能力主要归功于两个重要特性:(i) 能够在标准生成机制和复制机制之间切换,这使得可以直接复制输入事实以生成输出;(ii) 使用一种创新的训练管道,进一步提高了生成文本的质量。我们还引入了一个名为E2E+的新数据集,旨在突出字符级模型的复制能力。E2E+是对著名的E2E数据集(用于E2E挑战赛)的一个修改版本。我们根据五种广泛接受的评估指标(包括常用的BLEU指标)测试了我们的模型,结果显示其性能与字符级和词汇级方法相比具有竞争力。

代码仓库

marco-roberti/char-data-to-text-gen
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
data-to-text-generation-on-e2e-nlg-challengeEDA_CS
BLEU: 67.05
CIDEr: 2.2355
METEOR: 44.49
NIST: 8.5150
ROUGE-L: 68.94
data-to-text-generation-on-e2e-nlg-challengeEDA_CS (TL)
BLEU: 65.80
CIDEr: 2.1803
METEOR: 45.16
NIST: 8.5615
ROUGE-L: 67.40

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于字符的数据到文本生成中的复制机制与定制训练 | 论文 | HyperAI超神经