
摘要
SberQuAD——俄语语境下对斯坦福SQuAD的大型模拟数据集——是一项极具价值的资源,但尚未在科学界得到充分展示。本文通过提供详尽的描述、深入的分析以及基线实验结果,填补了这一空白。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| question-answering-on-sberquad | DeepPavlov R-Net | EM: 60.62 F1: 80.04 |
| question-answering-on-sberquad | DeepPavlov multilingual BERT | EM: 64.35+-0.39 F1: 83.39+-0.08 |
| question-answering-on-sberquad | DeepPavlov RuBERT | EM: 66.30+-0.24 F1: 84.60+-0.11 |