3 个月前

Molweni:一个基于多轮对话且具有话语结构的机器阅读理解数据集

Molweni:一个基于多轮对话且具有话语结构的机器阅读理解数据集

摘要

近年来,多方对话(multiparty dialog)领域的研究取得了显著进展。本文提出了Molweni数据集,这是一个基于多方对话构建的机器阅读理解(MRC)数据集,其核心特征在于具备显式的语篇结构。Molweni的数据源取自Ubuntu聊天语料库(Ubuntu Chat Corpus),包含10,000个对话,共计88,303条话语。我们在该语料库上标注了30,066个问题,涵盖可回答与不可回答两类问题。此外,Molweni在语篇分析方面具有独特贡献:针对所有多方对话,采用改进的分段语篇表示理论(Segmented Discourse Representation Theory, SDRT;Asher et al., 2016)风格,标注了语篇依赖关系,共包含78,245条已标注的语篇关系,为多方对话的语篇解析任务提供了大规模标注数据支持。我们的实验表明,Molweni对当前主流的MRC模型构成显著挑战:即便是在SQuAD 2.0任务中表现优异的BERT-wwm模型,在Molweni数据集上的F1得分仅为67.7%,相较于其在SQuAD 2.0上的表现下降超过20个百分点,差异具有统计显著性。这一结果凸显了Molweni在复杂语境理解、多轮交互推理和语篇连贯性建模方面的高难度,为未来对话理解研究提供了重要基准。

代码仓库

HIT-SCIR/Molweni
官方
GitHub 中提及

基准测试

基准方法指标
discourse-parsing-on-molweniDeep Sequential
Link u0026 Rel F1: 54.8
Link F1: 78.1

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Molweni:一个基于多轮对话且具有话语结构的机器阅读理解数据集 | 论文 | HyperAI超神经