6 个月前

多模态表征

自然语言处理

Jiaqi Li Ming Liu Min-Yen Kan Zihao Zheng Zekun Wang Wenqiang Lei Ting Liu Bing Qin

摘要

近年来，多方对话（multiparty dialog）领域的研究取得了显著进展。本文提出了Molweni数据集，这是一个基于多方对话构建的机器阅读理解（MRC）数据集，其核心特征在于具备显式的语篇结构。Molweni的数据源取自Ubuntu聊天语料库（Ubuntu Chat Corpus），包含10,000个对话，共计88,303条话语。我们在该语料库上标注了30,066个问题，涵盖可回答与不可回答两类问题。此外，Molweni在语篇分析方面具有独特贡献：针对所有多方对话，采用改进的分段语篇表示理论（Segmented Discourse Representation Theory, SDRT；Asher et al., 2016）风格，标注了语篇依赖关系，共包含78,245条已标注的语篇关系，为多方对话的语篇解析任务提供了大规模标注数据支持。我们的实验表明，Molweni对当前主流的MRC模型构成显著挑战：即便是在SQuAD 2.0任务中表现优异的BERT-wwm模型，在Molweni数据集上的F1得分仅为67.7%，相较于其在SQuAD 2.0上的表现下降超过20个百分点，差异具有统计显著性。这一结果凸显了Molweni在复杂语境理解、多轮交互推理和语篇连贯性建模方面的高难度，为未来对话理解研究提供了重要基准。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

多模态表征

自然语言处理

Jiaqi Li Ming Liu Min-Yen Kan Zihao Zheng Zekun Wang Wenqiang Lei Ting Liu Bing Qin

摘要

近年来，多方对话（multiparty dialog）领域的研究取得了显著进展。本文提出了Molweni数据集，这是一个基于多方对话构建的机器阅读理解（MRC）数据集，其核心特征在于具备显式的语篇结构。Molweni的数据源取自Ubuntu聊天语料库（Ubuntu Chat Corpus），包含10,000个对话，共计88,303条话语。我们在该语料库上标注了30,066个问题，涵盖可回答与不可回答两类问题。此外，Molweni在语篇分析方面具有独特贡献：针对所有多方对话，采用改进的分段语篇表示理论（Segmented Discourse Representation Theory, SDRT；Asher et al., 2016）风格，标注了语篇依赖关系，共包含78,245条已标注的语篇关系，为多方对话的语篇解析任务提供了大规模标注数据支持。我们的实验表明，Molweni对当前主流的MRC模型构成显著挑战：即便是在SQuAD 2.0任务中表现优异的BERT-wwm模型，在Molweni数据集上的F1得分仅为67.7%，相较于其在SQuAD 2.0上的表现下降超过20个百分点，差异具有统计显著性。这一结果凸显了Molweni在复杂语境理解、多轮交互推理和语篇连贯性建模方面的高难度，为未来对话理解研究提供了重要基准。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Molweni：一个基于多轮对话且具有话语结构的机器阅读理解数据集 | 论文 | HyperAI超神经