4 个月前

神经数据到文本生成：管道架构与端到端架构的比较

Thiago Castro Ferreira; Chris van der Lee; Emiel van Miltenburg; Emiel Krahmer

摘要

传统上，大多数数据到文本的应用都是基于模块化流水线架构设计的，其中非语言输入数据通过多个中间转换步骤最终生成自然语言。相比之下，近年来提出的用于数据到文本生成的神经模型则采用了端到端的方法，这种方法在将非语言输入直接转化为自然语言时，中间表示较为隐式。本研究系统地比较了基于神经网络的流水线和端到端的数据到文本生成方法，特别是针对从RDF三元组生成文本的应用。两种架构均采用了当前最先进的深度学习方法，如编码器-解码器门控循环单元（GRU）和Transformer。自动评估、人工评估以及定性分析表明，在生成过程中具有显式中间步骤的方法比端到端方法生成的文本质量更高。此外，流水线模型对未见过的输入具有更好的泛化能力。所有数据和代码均已公开。

代码仓库

ThiagoCF05/webnlg

官方

基准测试

基准	方法	指标
data-to-text-generation-on-webnlg	E2E GRU	BLEU: 57.20
data-to-text-generation-on-webnlg-full-1	Transformer (Pipeline)	BLEU: 51.68

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程

即用型 GPU

最优价格

立即开始

Hyper Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供