
摘要
人类通过参与涉及一系列相互关联的问题和答案的对话来收集信息。为了使机器能够在信息收集过程中提供帮助,因此有必要使它们能够回答对话中的问题。我们介绍了CoQA,这是一个用于构建对话式问答系统的新型数据集。该数据集包含从七个不同领域的8000段文本对话中提取的127000个问题及其答案。这些问题具有对话性质,而答案则是自由格式的文本,并在相应的段落中标注了支持这些答案的证据。我们对CoQA进行了深入分析,展示了对话式问题中存在一些现有阅读理解数据集中未出现的挑战性现象,例如共指消解(coreference)和实用推理(pragmatic reasoning)。我们在CoQA上评估了几种强大的对话式问答和阅读理解模型。最佳系统获得了65.4%的F1分数,比人类表现(88.8%)低23.4个百分点,这表明仍有很大的提升空间。我们推出CoQA作为社区的一项挑战,并将其发布在http://stanfordnlp.github.io/coqa/ 上。
代码仓库
stanfordnlp/coqa-baselines
pytorch
GitHub 中提及
iit-nlp-research/chatgpt-crawler
pytorch
GitHub 中提及
leozhoujf/DataSciComp
paddle
GitHub 中提及
mrzjy/sunburst
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| generative-question-answering-on-coqa | PGNet | F1-Score: 45.4 |
| question-answering-on-coqa | DrQA + seq2seq with copy attention (single model) | In-domain: 67.0 Out-of-domain: 60.4 Overall: 65.1 |
| question-answering-on-coqa | Vanilla DrQA (single model) | In-domain: 54.5 Out-of-domain: 47.9 Overall: 52.6 |