
摘要
近年来的信息抽取方法主要依赖于深度神经网络模型的训练。然而,这类模型容易对噪声标签产生过拟合,导致性能下降。尽管在大规模学习资源中过滤噪声标签成本高昂,但近期研究表明,噪声标签相较于干净标签需要更多的训练步数才能被记忆,且更容易被遗忘,因此在训练过程中具有可识别性。基于这一特性,我们提出了一种面向实体中心信息抽取的简单协同正则化框架。该框架由多个结构相同但参数初始化不同的神经网络模型组成,这些模型在任务特定损失函数下联合优化,并通过一种基于一致性的正则化损失进行约束,促使各模型生成相似的预测结果,从而有效防止对噪声标签的过拟合。在两个广泛使用但存在噪声的信息抽取基准数据集——TACRED 和 CoNLL03 上的大量实验表明,所提框架具有显著有效性。我们已将代码开源,以支持后续研究工作。
代码仓库
wzhouad/NLL-IE
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| named-entity-recognition-ner-on-conll-2003 | Co-regularized LUKE | F1: 94.22 |
| named-entity-recognition-on-conll | Noise-robust Co-regularization + LUKE | F1: 95.60 |
| named-entity-recognition-on-conll | Noise-robust Co-regularization + BERT-large | F1: 94.04 |
| relation-extraction-on-tacred | Noise-robust Co-regularization + BERT-large | F1: 73.0 |