
摘要
传统上,大多数数据到文本的应用都是基于模块化流水线架构设计的,其中非语言输入数据通过多个中间转换步骤最终生成自然语言。相比之下,近年来提出的用于数据到文本生成的神经模型则采用了端到端的方法,这种方法在将非语言输入直接转化为自然语言时,中间表示较为隐式。本研究系统地比较了基于神经网络的流水线和端到端的数据到文本生成方法,特别是针对从RDF三元组生成文本的应用。两种架构均采用了当前最先进的深度学习方法,如编码器-解码器门控循环单元(GRU)和Transformer。自动评估、人工评估以及定性分析表明,在生成过程中具有显式中间步骤的方法比端到端方法生成的文本质量更高。此外,流水线模型对未见过的输入具有更好的泛化能力。所有数据和代码均已公开。
代码仓库
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| data-to-text-generation-on-webnlg | E2E GRU | BLEU: 57.20 |
| data-to-text-generation-on-webnlg-full-1 | Transformer (Pipeline) | BLEU: 51.68 |