
摘要
在本研究中,我们提出了一种通过在线用户交互训练任务导向对话系统的混合学习方法。目前,任务导向对话的学习方法主要包括利用用户反馈对监督预训练模型进行强化学习。然而,这种学习方法的效率可能会因离线训练阶段和在线交互学习阶段之间对话状态分布的不匹配而受到影响。为了解决这一挑战,我们提出了一种结合模仿学习和强化学习的混合方法,使对话代理能够通过从人类教学和反馈中学习来有效提升其与用户的交互能力。我们设计了一个基于神经网络的任务导向对话代理,该代理可以通过所提出的混合学习方法进行端到端优化。实验结果表明,我们的端到端对话代理能够通过模仿学习从用户教学中的错误中有效学习。在模仿学习阶段之后应用带有用户反馈的强化学习进一步提高了代理成功完成任务的能力。
代码仓库
google-research-datasets/simulated-dialogue
官方
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| dialogue-state-tracking-on-second-dialogue | Liu et al. | Area: 90 Food: 84 Joint: 72 Price: 92 Request: - |