
摘要
我们研究如何采样负例,以自动构建有效的训练集,从而提升基于检索的对话系统中模型的学习效果。受学习过程中动态适应负例与匹配模型这一思想的启发,我们提出了四种采样策略:最小采样(minimum sampling)、最大采样(maximum sampling)、半困难采样(semi-hard sampling)以及衰减困难采样(decay-hard sampling)。在两个基准数据集上,结合三种匹配模型的实证研究结果表明:相较于广泛使用的随机采样策略,前两种策略会导致性能下降,而后两种策略则能够在两个基准数据集上持续提升所有模型的性能。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| conversational-response-selection-on-ubuntu-1 | DAM-Semi | R10@1: 0.785 R10@2: 0.883 R10@5: 0.974 R2@1: 0.944 |