3 个月前

问题究竟在询问什么?MFAE:基于多融合提问强调的重复问题识别

问题究竟在询问什么?MFAE:基于多融合提问强调的重复问题识别

摘要

重复问题识别(Duplicate Question Identification, DQI)能够显著提升大规模社区问答系统及自动问答系统的处理效率与准确性。DQI任务的核心目标是判断一对问题在语义上是否等价。然而,如何准确区分配对问题中的同义词或同形异义词,仍是当前面临的重要挑战。以往多数研究主要关注词汇级或短语级的语义差异,而本文首次提出将问题的“提问重点”(asking emphasis)作为DQI中的关键因素。提问重点在连接两个问题的语义等价性方面起到桥梁作用。本文提出一种基于多融合提问重点(Multi-fusion Asking Emphasis, MFAE)的注意力模型,用于提升DQI性能。首先,利用BERT获取动态预训练词向量;随后,通过计算跨注意力(inter-attention)与自注意力(self-attention)的加权和,分别提取问题间的提问重点(inter-asking emphasis)与问题内部的提问重点(intra-asking emphasis),其核心思想是:一个词与其他词的交互越频繁,其重要性越高。最后,采用八种组合方式生成多融合提问重点与多融合词表示,以增强模型对语义等价性的捕捉能力。实验结果表明,所提模型在Quora Question Pairs和CQADupStack两个公开数据集上均达到了当前最优性能。此外,该模型在SNLI与MultiNLI自然语言推理数据集上也表现出良好的泛化能力,能够有效提升相关任务的性能。代码已开源,地址为:https://github.com/rzhangpku/MFAE。

基准测试

基准方法指标
community-question-answering-on-quoraMFAE
Accuracy: 90.54
natural-language-inference-on-multinliMFAE
Matched: 82.31
Mismatched: 81.43
natural-language-inference-on-snliMFAE
% Test Accuracy: 90.07
% Train Accuracy: 93.18
paraphrase-identification-on-quora-questionMFAE
Accuracy: 90.54

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
问题究竟在询问什么?MFAE:基于多融合提问强调的重复问题识别 | 论文 | HyperAI超神经