HyperAIHyperAI

Command Palette

Search for a command to run...

SubRegWeigh:基于子词正则化的有效且高效的注释加权方法

Kohei Tsuji¹, Tatsuya Hiraoka², Yuchang Cheng¹,³, Tomoya Iwakura¹,³

摘要

自然语言处理(NLP)数据集即使经过人工标注,也可能包含标注错误。研究人员已经尝试开发自动减少数据集中错误负面影响的方法。然而,现有的方法耗时较长,因为它们需要多个训练好的模型来检测错误。本文提出了一种节省时间的方法,该方法利用一种称为子词正则化(subword regularization)的分词技术来模拟多个错误检测模型,以识别错误。我们提出的方法SubRegWeigh在执行注释加权时比现有方法快四到五倍。此外,SubRegWeigh在文档分类和命名实体识别任务中也提高了性能。在伪错误标签实验中,SubRegWeigh能够清晰地将伪错误标签识别为标注错误。我们的代码已发布在https://github.com/4ldk/SubRegWeigh


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
SubRegWeigh:基于子词正则化的有效且高效的注释加权方法 | 论文 | HyperAI超神经