
摘要
近年来,带有复制机制的神经序列到序列模型在多种文本生成任务中取得了显著进展。这类模型有效缓解了词汇表外(out-of-vocabulary)问题,并有助于生成罕见词汇。然而,如先前研究指出,准确识别需要复制的词语仍具挑战性,导致现有复制模型普遍存在生成错误和抽象性不足的问题。本文提出一种新型的监督式复制网络方法,旨在帮助模型更准确地判断哪些词语应被复制、哪些应被生成。具体而言,我们重新定义了目标函数,利用源序列和目标词表作为引导信号,以提升复制决策的准确性。在数据到文本生成与抽象摘要任务上的实验结果表明,所提方法不仅显著提升了复制质量,还增强了生成文本的抽象程度。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| data-to-text-generation-on-mlb-dataset | Force-Copy | Precision: 84.50 count: 21.05 |
| data-to-text-generation-on-mlb-dataset-1 | Force-Copy | Precision: 49.39 Recall: 50.89 |
| data-to-text-generation-on-mlb-dataset-2 | Force-Copy | BLEU: 10.5 |
| data-to-text-generation-on-mlb-dataset-3 | Force-Copy | DLD: 21.16 |
| data-to-text-generation-on-rotowire | Force-Copy | BLEU: 17.26 |
| data-to-text-generation-on-rotowire-content | Force-Copy | BLEU: 15.8 DLD: 17.26% |
| data-to-text-generation-on-rotowire-content-1 | Force-Copy | Precision: 34.34% Recall: 48.85% |
| data-to-text-generation-on-rotowire-relation | Force-Copy | Precision: 95.40% count: 27.37 |