
摘要
将结构化数据转化为自然语言描述已成为一项具有挑战性的任务,被称为“数据到文本”(data-to-text)。这类结构通常包含多个元素及其属性。目前大多数方法依赖于编码器-解码器的翻译框架,将数据元素线性化为序列,但这会丢失数据中蕴含的大部分结构信息。在本研究中,我们提出一种层次化模型,能够在元素层面和结构层面同时编码数据结构,从而克服上述局限性。在RotoWire数据集上的实验结果表明,该模型在定性和定量评估指标上均表现出优异性能。
代码仓库
KaijuML/data-to-text-hierarchical
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| data-to-text-generation-on-rotowire | Hierarchical transformer encoder + conditional copy | BLEU: 17.50 |
| data-to-text-generation-on-rotowire-content | Hierarchical Transformer Encoder + conditional copy | BLEU: 17.50 DLD: 18.90% |
| data-to-text-generation-on-rotowire-content-1 | Hierarchical Transformer Encoder + conditional copy | Precision: 39.47% Recall: 51.64% |
| data-to-text-generation-on-rotowire-relation | Hierarchical Transformer Encoder + conditional copy | Precision: 89.46% count: 21.17 |