
摘要
当多个对话同时发生时,听者必须判断每一句话属于哪一段对话,以便正确理解并作出恰当回应。我们将这一任务称为“解纠缠”(disentanglement)。本文提出一个基于互联网中继聊天(Internet Relay Chat, IRC)的对话语料库,其中各段对话已由人工完成解纠缠标注,并对标注者的一致性进行了评估。据我们所知,这是首个面向互联网聊天场景的此类语料库。我们提出一种基于图论的解纠缠模型,采用此前未被应用于该任务的基于话语的特征。该模型预测的解纠缠结果与人工标注具有高度相关性。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| conversation-disentanglement-on-irc | Linear | 1-1: 51.4 F: 15.5 P: 12.1 R: 21.5 VI: 82.1 |
| conversation-disentanglement-on-linux-irc-ch2 | Linear | 1-1: 59.7 Local: 80.8 Shen F-1: 63.0 |
| conversation-disentanglement-on-linux-irc-ch2-1 | Linear | 1-1: 53.1 Local: 81.9 Shen F-1: 55.1 |