4 个月前

SubRegWeigh:基于子词正则化的有效且高效的注释加权方法

SubRegWeigh:基于子词正则化的有效且高效的注释加权方法

摘要

自然语言处理(NLP)数据集即使经过人工标注,也可能包含标注错误。研究人员已经尝试开发自动减少数据集中错误负面影响的方法。然而,现有的方法耗时较长,因为它们需要多个训练好的模型来检测错误。本文提出了一种节省时间的方法,该方法利用一种称为子词正则化(subword regularization)的分词技术来模拟多个错误检测模型,以识别错误。我们提出的方法SubRegWeigh在执行注释加权时比现有方法快四到五倍。此外,SubRegWeigh在文档分类和命名实体识别任务中也提高了性能。在伪错误标签实验中,SubRegWeigh能够清晰地将伪错误标签识别为标注错误。我们的代码已发布在https://github.com/4ldk/SubRegWeigh 。

代码仓库

4ldk/SubRegWeigh
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
named-entity-recognition-ner-on-conll-2003RoBERTa + SubRegWeigh (K-means)
F1: 93.81
named-entity-recognition-ner-on-conll-2003LUKE + SubRegWeigh (K-means)
F1: 94.2
named-entity-recognition-ner-on-conll-2020RoBERTa + SubRegWeigh (K-means)
F1: 94.96
named-entity-recognition-ner-on-conll-2020LUKE + SubRegWeigh (K-means)
F1: 95.31
named-entity-recognition-on-conllLUKE + SubRegWeigh (K-means)
F1: 95.27
named-entity-recognition-on-conllRoBERTa + SubRegWeigh (K-means)
F1: 95.45
named-entity-recognition-on-wnut-2017RoBERTa + SubRegWeigh (K-means)
F1: 60.29
semantic-textual-similarity-on-mrpcRoBERTa + SubRegWeigh (K-means)
Accuracy: 86.82%
sentiment-analysis-on-sst-2-binaryRoBERTa + SubRegWeigh (K-means)
Accuracy: 94.84

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
SubRegWeigh:基于子词正则化的有效且高效的注释加权方法 | 论文 | HyperAI超神经