3 个月前

击败AI:面向阅读理解的对抗性人类标注研究

击败AI:面向阅读理解的对抗性人类标注研究

摘要

注释方法的创新已成为推动阅读理解(Reading Comprehension, RC)数据集与模型发展的关键动力。近年来,一种新兴趋势是将模型纳入注释过程:人类以对抗性方式生成问题,使得当前模型无法正确回答。本文系统研究了这一注释方法,并在三种不同场景下加以应用,通过逐步增强“模型在环”(model-in-the-loop)的强度,共收集了总计36,000个样本。这一设计使我们能够深入探讨若干关键问题,包括对抗效应的可复现性、不同模型强度下收集数据的迁移能力,以及在无模型参与情况下数据的泛化表现。研究发现,基于对抗性收集样本进行训练,能够实现对非对抗性数据集的强泛化能力,但随着“模型在环”强度的持续提升,模型性能呈现逐步下降趋势。此外,我们还发现,即使使用较强模型进行训练,仍可从由显著较弱模型参与注释所生成的数据集中有效学习。例如,当使用BiDAF模型作为注释环中的参与者时,RoBERTa模型在原本无法回答的问题上仍能达到39.9的F1分数,仅略低于使用RoBERTa自身作为注释模型所收集数据训练时的表现(41.0 F1)。这一结果表明,即便注释过程中所用模型能力有限,其生成的数据仍具备较高的训练价值,且对后续模型的性能提升具有显著贡献。

代码仓库

maxbartolo/adversarialQA
官方
GitHub 中提及

基准测试

基准方法指标
reading-comprehension-on-adversarialqaBERT-Large
D(BERT): F1: 62.4
D(BiDAF): F1: 71.3
D(RoBERTa): F1: 54.4
Overall: F1: 62.7
reading-comprehension-on-adversarialqaBiDAF
D(BERT): F1: 30.2
D(BiDAF): F1: 28.6
D(RoBERTa): F1: 26.7
Overall: F1: 28.5
reading-comprehension-on-adversarialqaRoBERTa-Large
D(BERT): F1: 65.5
D(BiDAF): F1: 74.1
D(RoBERTa): F1: 53.4
Overall: F1: 64.4

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
击败AI:面向阅读理解的对抗性人类标注研究 | 论文 | HyperAI超神经