
摘要
情感识别能力为对话式人工智能赋予了人性化特质。尽管在闲聊对话中情感研究已受到广泛关注,但任务导向型对话中的情感问题却仍鲜有涉及。然而,情感与对话成功在自然交互系统中具有同等重要的作用。现有的任务导向型对话情感标注语料库在规模、标签丰富度以及公开可用性方面均存在局限,成为下游任务发展的瓶颈。为推动任务导向型对话中情感研究的发展,我们提出了EmoWOZ——一个大规模人工标注情感的任务导向对话语料库。EmoWOZ基于MultiWOZ这一多领域任务导向对话数据集构建,包含超过11,000条对话,涵盖超过83,000条用户话语的情感标注。除MultiWOZ中原有的Wizard-of-Oz对话外,我们还收集了相同领域下的人机对话数据,以充分覆盖数据驱动型对话系统在其生命周期中可能经历的各类情感状态。据我们所知,这是首个大规模、开源的任务导向型对话情感标注语料库。我们提出了一种专为任务导向对话设计的新型情感标注方案,并通过一系列实验结果验证了该语料库在任务导向对话中情感识别与对话状态追踪任务中的可用性与有效性。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| emotion-recognition-in-conversation-on-emowoz | DialogueRNN-GloVe | Macro F1: 46.33 Macro F1 (w/o Neutral): 40.14 Weighted F1: 80.76 Weighted F1 (w/o Neutral): 74.56 |
| emotion-recognition-in-conversation-on-emowoz | DialogueRNN-BERT | Macro F1: 57.10 Macro F1 (w/o Neutral): 52.15 Weighted F1: 83.41 Weighted F1 (w/o Neutral): 75.50 |
| emotion-recognition-in-conversation-on-emowoz | ContextBERT | Macro F1: 59.79 Macro F1 (w/o Neutral): 54.30 Weighted F1: 88.33 Weighted F1 (w/o Neutral): 79.67 |
| emotion-recognition-in-conversation-on-emowoz | COSMIC | Macro F1: 61.12 Macro F1 (w/o Neutral): 56.34 Weighted F1: 85.94 Weighted F1 (w/o Neutral): 77.09 |
| emotion-recognition-in-conversation-on-emowoz | BERT | Macro F1: 55.80 Macro F1 (w/o Neutral): 50.14 Weighted F1: 84.83 Weighted F1 (w/o Neutral): 73.55 |