
摘要
注释方法的创新已成为推动阅读理解(Reading Comprehension, RC)数据集与模型发展的关键动力。近年来,一种新兴趋势是将模型纳入注释过程:人类以对抗性方式生成问题,使得当前模型无法正确回答。本文系统研究了这一注释方法,并在三种不同场景下加以应用,通过逐步增强“模型在环”(model-in-the-loop)的强度,共收集了总计36,000个样本。这一设计使我们能够深入探讨若干关键问题,包括对抗效应的可复现性、不同模型强度下收集数据的迁移能力,以及在无模型参与情况下数据的泛化表现。研究发现,基于对抗性收集样本进行训练,能够实现对非对抗性数据集的强泛化能力,但随着“模型在环”强度的持续提升,模型性能呈现逐步下降趋势。此外,我们还发现,即使使用较强模型进行训练,仍可从由显著较弱模型参与注释所生成的数据集中有效学习。例如,当使用BiDAF模型作为注释环中的参与者时,RoBERTa模型在原本无法回答的问题上仍能达到39.9的F1分数,仅略低于使用RoBERTa自身作为注释模型所收集数据训练时的表现(41.0 F1)。这一结果表明,即便注释过程中所用模型能力有限,其生成的数据仍具备较高的训练价值,且对后续模型的性能提升具有显著贡献。
代码仓库
maxbartolo/adversarialQA
官方
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| reading-comprehension-on-adversarialqa | BERT-Large | D(BERT): F1: 62.4 D(BiDAF): F1: 71.3 D(RoBERTa): F1: 54.4 Overall: F1: 62.7 |
| reading-comprehension-on-adversarialqa | BiDAF | D(BERT): F1: 30.2 D(BiDAF): F1: 28.6 D(RoBERTa): F1: 26.7 Overall: F1: 28.5 |
| reading-comprehension-on-adversarialqa | RoBERTa-Large | D(BERT): F1: 65.5 D(BiDAF): F1: 74.1 D(RoBERTa): F1: 53.4 Overall: F1: 64.4 |