
摘要
自然语言处理(NLP)数据集即使经过人工标注,也可能包含标注错误。研究人员已经尝试开发自动减少数据集中错误负面影响的方法。然而,现有的方法耗时较长,因为它们需要多个训练好的模型来检测错误。本文提出了一种节省时间的方法,该方法利用一种称为子词正则化(subword regularization)的分词技术来模拟多个错误检测模型,以识别错误。我们提出的方法SubRegWeigh在执行注释加权时比现有方法快四到五倍。此外,SubRegWeigh在文档分类和命名实体识别任务中也提高了性能。在伪错误标签实验中,SubRegWeigh能够清晰地将伪错误标签识别为标注错误。我们的代码已发布在https://github.com/4ldk/SubRegWeigh 。
代码仓库
4ldk/SubRegWeigh
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| named-entity-recognition-ner-on-conll-2003 | RoBERTa + SubRegWeigh (K-means) | F1: 93.81 |
| named-entity-recognition-ner-on-conll-2003 | LUKE + SubRegWeigh (K-means) | F1: 94.2 |
| named-entity-recognition-ner-on-conll-2020 | RoBERTa + SubRegWeigh (K-means) | F1: 94.96 |
| named-entity-recognition-ner-on-conll-2020 | LUKE + SubRegWeigh (K-means) | F1: 95.31 |
| named-entity-recognition-on-conll | LUKE + SubRegWeigh (K-means) | F1: 95.27 |
| named-entity-recognition-on-conll | RoBERTa + SubRegWeigh (K-means) | F1: 95.45 |
| named-entity-recognition-on-wnut-2017 | RoBERTa + SubRegWeigh (K-means) | F1: 60.29 |
| semantic-textual-similarity-on-mrpc | RoBERTa + SubRegWeigh (K-means) | Accuracy: 86.82% |
| sentiment-analysis-on-sst-2-binary | RoBERTa + SubRegWeigh (K-means) | Accuracy: 94.84 |