
摘要
我们提出了一种新的文本编辑任务,称为\textit{基于事实的文本编辑},其目标是修订给定文档,以更好地描述知识库中的事实(例如,多个三元组)。该任务在实践中具有重要意义,因为反映真相是文本编辑的常见要求。首先,我们提出了一种自动生成基于事实的文本编辑研究数据集的方法,其中每个实例包括一篇草稿文本、一篇修订后的文本以及若干个以三元组形式表示的事实。我们将该方法应用于两个公开的表格到文本的数据集上,分别获得了包含23.3万和3.7万个实例的新数据集。接下来,我们提出了一种新的神经网络架构用于基于事实的文本编辑,称为\textsc{FactEditor}。该模型通过使用缓冲区、流和内存来引用给定的事实对草稿文本进行编辑。解决这一问题的一种直接方法是采用编码器-解码器模型。我们在两个数据集上的实验结果表明,\textsc{FactEditor}在忠实度和流畅性方面优于编码器-解码器方法。实验结果还显示,\textsc{FactEditor}在推理速度上也快于编码器-解码器方法。
代码仓库
isomap/factedit
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| fact-based-text-editing-on-rotoedit | FactEditor | ADD: 41.5 BLEU: 84.43 DELETE: 84.24 Exact Match: 2.65 F1: 63.39 KEEP: 98.41 Precision: 78.84 Recall: 52.3 SARI: 74.72 |
| fact-based-text-editing-on-webedit | Table-to-Text | ADD: 27.86 BLEU: 33.75 DELETE: 0.5219 Exact Match: 5.78 F1: 90.4 KEEP: 0.5144 Precision: 98.23 Recall: 83.72 SARI: 43.83 |
| fact-based-text-editing-on-webedit | No-Editing | ADD: 3.91 BLEU: 66.67 DELETE: 0.1202 Exact Match: 0 F1: 80.21 KEEP: 0.7862 Precision: 84.49 Recall: 76.34 SARI: 31.51 |
| fact-based-text-editing-on-webedit | Text-to-Text | ADD: 25.77 BLEU: 63.61 DELETE: 0.678 Exact Match: 6.22 F1: 79.48 KEEP: 0.8262 Precision: 81.93 Recall: 77.16 SARI: 58.73 |
| fact-based-text-editing-on-webedit | FactEditor | ADD: 47.69 BLEU: 75.68 DELETE: 0.7707 Exact Match: 24.8 F1: 93.17 KEEP: 0.9184 Precision: 96.88 Recall: 89.74 SARI: 72.2 |
| fact-based-text-editing-on-webedit | EncDecEditor | ADD: 43.82 BLEU: 71.03 DELETE: 0.7548 Exact Match: 20.96 F1: 92.51 KEEP: 0.8949 Precision: 98.06 Recall: 87.56 SARI: 69.59 |