6 个月前

摘要

当多个对话同时发生时，听者必须判断每一句话属于哪一段对话，以便正确理解并作出恰当回应。我们将这一任务称为“解纠缠”（disentanglement）。本文提出一个基于互联网中继聊天（Internet Relay Chat, IRC）的对话语料库，其中各段对话已由人工完成解纠缠标注，并对标注者的一致性进行了评估。据我们所知，这是首个面向互联网聊天场景的此类语料库。我们提出一种基于图论的解纠缠模型，采用此前未被应用于该任务的基于话语的特征。该模型预测的解纠缠结果与人工标注具有高度相关性。

源 PDF