HyperAI超神经

摘要

自然语言处理（NLP）数据集即使经过人工标注，也可能包含标注错误。研究人员已经尝试开发自动减少数据集中错误负面影响的方法。然而，现有的方法耗时较长，因为它们需要多个训练好的模型来检测错误。本文提出了一种节省时间的方法，该方法利用一种称为子词正则化（subword regularization）的分词技术来模拟多个错误检测模型，以识别错误。我们提出的方法SubRegWeigh在执行注释加权时比现有方法快四到五倍。此外，SubRegWeigh在文档分类和命名实体识别任务中也提高了性能。在伪错误标签实验中，SubRegWeigh能够清晰地将伪错误标签识别为标注错误。我们的代码已发布在https://github.com/4ldk/SubRegWeigh 。

摘要

Kohei Tsuji¹, Tatsuya Hiraoka², Yuchang Cheng¹,³, Tomoya Iwakura¹,³

摘要

用 AI 构建 AI

HyperAI Newsletters

Kohei Tsuji¹, Tatsuya Hiraoka², Yuchang Cheng¹,³, Tomoya Iwakura¹,³

摘要

用 AI 构建 AI

HyperAI Newsletters

Kohei Tsuji¹, Tatsuya Hiraoka², Yuchang Cheng¹,³, Tomoya Iwakura¹,³

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

SubRegWeigh：基于子词正则化的有效且高效的注释加权方法

Kohei Tsuji¹, Tatsuya Hiraoka², Yuchang Cheng¹,³, Tomoya Iwakura¹,³

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

SubRegWeigh：基于子词正则化的有效且高效的注释加权方法

Kohei Tsuji¹, Tatsuya Hiraoka², Yuchang Cheng¹,³, Tomoya Iwakura¹,³

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

SubRegWeigh：基于子词正则化的有效且高效的注释加权方法

Kohei Tsuji¹, Tatsuya Hiraoka², Yuchang Cheng¹,³, Tomoya Iwakura¹,³

摘要

用 AI 构建 AI

HyperAI Newsletters