
摘要
开放域对话系统由于单轮对话数据集易于获取以及深度学习的发展,已经取得了显著的成功。然而,多轮对话场景仍然是一个挑战,因为其中经常出现共指现象和信息省略。本文研究了最近研究中带来多轮对话系统整体改进的不完整话语恢复问题。同时,受到文本生成中的自回归方法和文本编辑中的序列标注方法的共同启发,我们提出了一种具有高效性和灵活性的新型半自回归生成器(SARG)。此外,我们在两个基准数据集上的实验表明,所提出的模型在质量和推理速度方面显著优于当前最先进的模型。
代码仓库
NetEase-GameAI/SARG
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| dialogue-rewriting-on-canard | SARG | BLEU: 54.80 |
| dialogue-rewriting-on-multi-rewrite | SARG (n_beam=5) | Rewriting F2: 52.5 Rewriting F3: 46.4 |
| dialogue-rewriting-on-multi-rewrite | SARG (greedy) | BLEU-1: 92.2 BLEU-2: 89.6 ROUGE-1: 92.1 ROUGE-2: 86.0 Rewriting F1: 62.4 |