
摘要
近年来,数据到文本生成的主流方法普遍采用效果显著的编码器-解码器架构或其变体。这类模型生成的文本虽然流畅,但往往缺乏准确性,在内容选择与逻辑顺序组织方面表现较差。为解决上述问题,我们提出一种新型神经模型,该模型包含一个宏观规划阶段和一个生成阶段,其设计思路借鉴了传统方法中将规划与表层实现模块化分离的范式。其中,宏观规划用于表征关键内容的高层次组织结构,如实体、事件及其相互关系;这些规划由数据自动学习得到,并作为输入提供给生成模块。在两个典型的数据到文本基准数据集(RotoWire 和 MLB)上的大量实验表明,所提方法在自动评估与人工评估中均显著优于现有竞争性基线模型。
代码仓库
ratishsp/data2text-macro-plan-py
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| data-to-text-generation-on-mlb-dataset | ENT | Precision: 81.1 count: 23.8 |
| data-to-text-generation-on-mlb-dataset | Macro | Precision: 94.4 count: 30.8 |
| data-to-text-generation-on-mlb-dataset-1 | Macro | Precision: 40.8 Recall: 54.9 |
| data-to-text-generation-on-mlb-dataset-2 | Macro | BLEU: 12.62 |
| data-to-text-generation-on-mlb-dataset-3 | Macro | DLD: 21.8 |
| data-to-text-generation-on-mlb-dataset-3 | ENT | DLD: 20.7 |
| data-to-text-generation-on-rotowire | Macro | BLEU: 15.46 |
| data-to-text-generation-on-rotowire-content | Macro | DLD: 17.7% |
| data-to-text-generation-on-rotowire-content-1 | Macro | Precision: 34.1% Recall: 57.8% |
| data-to-text-generation-on-rotowire-relation | Macro | Precision: 97.6 count: 42.1 |