
摘要
知识图谱(KGs)在不同领域之间可能存在显著差异。因此,无论是从图到文本生成还是从文本到图的知识抽取(语义解析),监督方法都会面临特定领域平行图-文本数据不足的问题;同时,由于实体和关系几乎没有重叠,将一个在不同领域训练的模型进行适应通常也是不可能的。鉴于这种情况,我们需要一种方法,该方法(1)不需要大量标注数据,从而(2)不必依赖领域适应技术就能在不同领域中表现良好。为此,我们提出了首个无需监督的从知识图谱生成文本的方法,并同时展示了如何将其用于无监督语义解析。我们在WebNLG v2.1和一个新的基于Visual Genome场景图的基准上评估了我们的方法。实验结果表明,我们的系统在两个方向的图-文本转换任务中均优于强大的基线模型,并且无需对不同数据集进行任何手动适应。此外,我们还通过额外的实验研究了使用不同无监督目标的影响。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| unsupervised-kg-to-text-generation-on-vg | GT-BT (composed noise) | BLEU: 23.2 |
| unsupervised-kg-to-text-generation-on-webnlg | GT-BT (sampled noise) | BLEU: 37.7 |
| unsupervised-semantic-parsing-on-vg-graph | GT-BT (composed noise) | F1: 21.7 |
| unsupervised-semantic-parsing-on-webnlg-v2-1 | GT-BT (sampled noise) | F1: 39.1 |