
摘要
近期的神经模型在生成基于少量数据库记录的简短描述性文本问题上取得了显著进展。本文提出了一项稍具挑战性的数据到文本生成任务,并探讨了当前方法在这项任务上的有效性。具体而言,我们引入了一个新的大规模数据记录与描述性文档配对的语料库,提出了一系列提取式评估方法来分析性能,并使用现有的神经生成方法获得了基线结果。实验表明,这些模型能够生成流畅的文本,但在令人信服地模拟人类生成的文档方面仍存在不足。此外,即使模板基线在某些指标上也超过了这些神经模型的表现,但基于复制和重构的扩展方法带来了明显的改进。
代码仓库
KaijuML/rotowire-rg-metric
pytorch
GitHub 中提及
ratishsp/data2text-1
GitHub 中提及
harvardnlp/boxscore-data
官方
GitHub 中提及
harvardnlp/data2text
官方
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| data-to-text-generation-on-rotowire | Encoder-decoder + conditional copy | BLEU: 14.19 |
| data-to-text-generation-on-rotowire-content | Encoder-decoder + conditional copy | BLEU: 14.49 DLD: 8.68% |
| data-to-text-generation-on-rotowire-content-1 | Encoder-decoder + conditional copy | Precision: 29.49% Recall: 36.18% |
| data-to-text-generation-on-rotowire-relation | Encoder-decoder + conditional copy | Precision: 74.80% count: 23.72 |