
摘要
基于注意力机制的预训练语言模型(如GPT-2)在端到端对话建模方面带来了显著的进步。然而,这些模型在任务导向型对话中也存在相当大的风险,例如缺乏知识基础或多样性不足。为了解决这些问题,我们引入了改进的语言模型微调训练目标,并通过反向翻译进行大规模数据增强,以增加训练数据的多样性。此外,我们还探讨了结合多个来源的数据以提高目标数据集性能的可能性。我们通过人工和自动方法对我们的贡献进行了仔细评估。实验结果表明,我们的模型在MultiWOZ数据集上显著优于基线模型,并且在自动评估和人工评估中均表现出与当前最先进水平相当的性能。
代码仓库
ufal/augpt
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| end-to-end-dialogue-modelling-on-multiwoz-2-0 | AuGPT | BLEU: 17.2 MultiWOZ (Inform): 90.2 MultiWOZ (Success): 75.5 |
| end-to-end-dialogue-modelling-on-multiwoz-2-1 | AuGPT | BLEU: 17.2 MultiWOZ (Inform): 91.4 MultiWOZ (Success): 72.9 |