4 个月前

CoQA、SQuAD 2.0 和 QuAC 的定性比较

CoQA、SQuAD 2.0 和 QuAC 的定性比较

摘要

我们比较了三个新的问答数据集:SQuAD 2.0、QuAC 和 CoQA,以及它们的几个新特性:(1)不可回答的问题,(2)多轮交互,(3)抽象答案。研究结果表明,这些数据集在前两个方面提供了互补的覆盖,但在第三个方面覆盖较弱。由于这些数据集的结构相似性,单一的抽取式模型可以轻松适应任何一个数据集,我们在 SQuAD 2.0 和 CoQA 上展示了改进的基线结果。尽管存在相似性,但在一个数据集上训练的模型在另一个数据集上的表现不佳,不过我们发现通过预训练可以适度提高性能。为了鼓励跨数据集评估,我们发布了代码以实现不同数据集之间的转换,代码地址为:https://github.com/my89/co-squac 。

代码仓库

my89/co-squac
官方
GitHub 中提及

基准测试

基准方法指标
question-answering-on-coqaBiDAF++ (single model)
In-domain: 69.4
Out-of-domain: 63.8
Overall: 67.8

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
CoQA、SQuAD 2.0 和 QuAC 的定性比较 | 论文 | HyperAI超神经