
摘要
以往关于知识到文本生成的研究通常以少量的RDF三元组或键值对作为输入,传达某些实体的知识以生成自然语言描述。现有的数据集,如WIKIBIO、WebNLG和E2E,基本上在输入的三元组/键值对集合与其输出文本之间具有良好的对应关系。然而,在实际应用中,输入的知识可能远远超过所需,因为输出的描述可能仅涵盖最重要的知识部分。本文介绍了一个大规模且具有挑战性的数据集,旨在促进KG-to-text(知识图谱到文本)在这一实际场景中的研究。我们的数据集涉及从大型知识图谱(KG)中检索各种主要实体的丰富知识,这使得当前的图到序列模型在生成描述时严重面临信息丢失和参数爆炸的问题。为了解决这些挑战,我们提出了一种多图结构,能够更全面地表示原始图信息。此外,我们还引入了聚合方法,学习如何提取丰富的图信息。广泛的实验验证了我们模型架构的有效性。
代码仓库
LiyingCheng95/EntityDescriptionGeneration
官方
mxnet
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| kg-to-text-generation-on-ent-desc | MGCN+sum | BLEU: 26.4 |