
摘要
近期数据到文本生成领域的进展促使了大规模数据集和端到端训练的神经网络模型的应用,这些模型在训练过程中并未显式地建模要说什么以及以何种顺序说。在本研究中,我们提出了一种神经网络架构,该架构在不牺牲端到端训练的前提下,融入了内容选择和规划。我们将生成任务分解为两个阶段:首先,给定一个包含数据记录(配对有描述性文档)的语料库,生成一个内容计划,突出应提及的信息及其顺序;然后,在考虑内容计划的情况下生成文档。自动评估和人工评估实验表明,我们的模型优于强大的基线模型,在最近发布的RotoWire数据集上提升了现有技术水平。
代码仓库
jugalw13/Red-Hat-Hack
GitHub 中提及
ratishsp/data2text-plan-py
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| data-to-text-generation-on-rotowire | Neural Content Planning + conditional copy | BLEU: 16.50 |
| data-to-text-generation-on-rotowire-content | Neural Content Planning + conditional copy | BLEU: 16.50 DLD: 18.58% |
| data-to-text-generation-on-rotowire-content-1 | Neural Content Planning + conditional copy | Precision: 34.18% Recall: 51.22% |
| data-to-text-generation-on-rotowire-relation | Neural Content Planning + conditional copy | Precision: 87.47% count: 34.28 |