4 个月前

生成数据增强以促进常识推理

生成数据增强以促进常识推理

摘要

近期在常识推理领域的进展依赖于大规模的人工标注训练数据来实现最佳性能。然而,手动创建训练样本既昂贵又容易引入注释伪影,这些伪影会被神经模型轻易利用并过度拟合。我们研究了G-DAUG^C,这是一种新颖的生成式数据增强方法,旨在在低资源环境下实现更准确和稳健的学习。我们的方法使用预训练语言模型生成合成样本,并选择最具信息量和多样性的样本集进行数据增强。在多个常识推理基准测试中,G-DAUG^C 一致优于现有的基于回译的数据增强方法,并在 WinoGrande、CODAH 和 CommonsenseQA 上建立了新的最先进水平。此外,除了提高分布内准确性外,使用 G-DAUG^C 增强的训练还增强了对分布外样本的泛化能力,表现出更强的对抗性和扰动样本的鲁棒性。我们的分析表明,G-DAUG^C 能够生成一组多样的流畅训练样本,并且其选择和训练方法对于性能至关重要。我们的研究结果鼓励未来的研究进一步探索生成式数据增强方法,以提升分布内学习和分布外泛化的能力。

基准测试

基准方法指标
common-sense-reasoning-on-winograndeG-DAUG-Combo + RoBERTa-Large
Accuracy: 71.4
coreference-resolution-on-winograd-schemaRoBERTa-large + G-DAug-Inf
Accuracy: 80
question-answering-on-codahG-DAUG-Combo + RoBERTa-Large
Accuracy: 84.0

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
生成数据增强以促进常识推理 | 论文 | HyperAI超神经