
摘要
多方对话机器阅读理解(Multi-party Dialogue Machine Reading Comprehension, MRC)面临巨大挑战,因其涉及同一对话中的多位说话人,导致说话人信息流复杂且对话上下文噪声较多。为缓解这些困难,以往模型通常依赖复杂的基于图的模块,并引入额外的人工标注数据来融合相关信息,然而在实际场景中,此类标注数据往往极为稀缺。本文提出两种无需人工干预的自监督与伪自监督预测任务,分别针对说话人身份和关键话语(key-utterance),以隐式建模说话人信息流,并捕捉长对话中的关键线索。在两个基准数据集上的实验结果表明,所提方法在性能上显著优于多种竞争性基线模型及当前最先进的模型。
代码仓库
ericlee8/multi-party-dialogue-mrc
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| question-answering-on-friendsqa | Li and Zhao - ELECTRA | EM: 55.8 F1: 72.3 |
| question-answering-on-friendsqa | Li and Zhao - BERT | EM: 46.9 F1: 63.9 |
| question-answering-on-molweni | Li and Zhao - BERT | EM: 49.2 F1: 64 |
| question-answering-on-molweni | Li and Zhao - ELECTRA | EM: 58 F1: 72.9 |