3 个月前

生成数据以缓解自然语言推理数据集中的虚假相关性

生成数据以缓解自然语言推理数据集中的虚假相关性

摘要

自然语言处理模型常常依赖于数据集中与任务无关的特征与标签之间的虚假相关性,在其训练分布范围内表现良好,但难以泛化到不同的任务分布。为解决这一问题,我们提出通过生成一个去偏(debiased)版本的数据集来应对,该数据集可直接用于训练去偏的、现成的模型,仅需替换其训练数据即可。我们的方法包含两个关键部分:1)一种用于训练数据生成器的方法,以生成高质量且标签一致的数据样本;2)一种基于z统计量度量的过滤机制,用于移除导致虚假相关性的数据点。我们生成了去偏版本的SNLI和MNLI数据集,并在一系列大规模的去偏、分布外(out-of-distribution)及对抗性测试集上进行评估。实验结果表明,在所有测试场景下,基于我们去偏数据集训练的模型均展现出优于原始数据集训练模型的泛化能力。在多数数据集上,我们的方法表现优于或至少可与先前最先进的去偏策略相媲美;当与另一种正交技术——专家乘积(product-of-experts)相结合时,性能进一步提升,在SNLI-hard和MNLI-hard两个基准上均超越了此前最优结果。

代码仓库

jimmycode/gen-debiased-nli
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
natural-language-inference-on-hansRoberta-large
1:1 Accuracy: 78.65

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
生成数据以缓解自然语言推理数据集中的虚假相关性 | 论文 | HyperAI超神经