
摘要
我们介绍了一个新的医学领域的机器理解数据集。该数据集包含临床病例报告,并附有约10万个关于这些病例的填空题查询。我们将几种基线模型和最先进的神经网络阅读器应用于该数据集,观察到最佳人类阅读器和机器阅读器之间的性能存在显著差距(F1分数为20%)。我们分析了成功回答问题所需的能力,并展示了阅读器性能如何因所涉及的能力而异。研究发现,使用领域知识进行推理和对象跟踪是最常需要的能力,而识别省略信息和时空推理则是机器最难掌握的能力。
代码仓库
clips/clicr
官方
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| question-answering-on-clicr | Gated-Attention Reader | F1: 33.9 |
| question-answering-on-clicr | Stanford Attentive Reader | F1: 27.2 |