
摘要
近期大规模问答(QA)数据集的开发引发了大量关于端到端神经架构在问答领域的研究。然而,越来越多的复杂系统被设计出来,却没有与更简单的神经基线系统进行比较以证明其复杂性的必要性。在这项工作中,我们提出了一种简单的启发式方法,用于指导提取式问答任务中神经基线系统的开发。我们发现,构建高性能神经问答系统需要两个关键要素:首先,在处理上下文时对问题词汇的敏感性;其次,超越简单词袋模型的组合函数,例如循环神经网络。我们的实验结果表明,FastQA 系统满足这两个要求,其性能与现有模型相比非常具有竞争力。我们认为这一令人惊讶的发现有助于重新审视先前系统的成果以及最近 QA 数据集的复杂性。
代码仓库
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| question-answering-on-newsqa | FastQAExt | EM: 43.7 F1: 56.1 |
| question-answering-on-squad11 | FastQAExt | EM: 70.849 F1: 78.857 |
| question-answering-on-squad11 | FastQA | EM: 68.436 F1: 77.070 |
| question-answering-on-squad11-dev | FastQAExt (beam-size 5) | EM: 70.3 F1: 78.5 |