4 个月前

野生环境中的文本分类:一个大规模长尾名称规范化数据集

野生环境中的文本分类:一个大规模长尾名称规范化数据集

摘要

现实世界中的数据通常表现出长尾分布,其中少数标签出现频率较高,而大量标签则属于少样本(few-shot)标签。机构名称规范化研究是一个展示这种现象的完美应用案例。全球各地的机构在公开文献中名称变化多样,种类繁多。在这项工作中,我们首先收集了一个大规模的机构名称规范化数据集 LoT-insts1,该数据集包含超过25,000个类别,这些类别的分布自然呈现长尾特征。为了将少样本和零样本学习场景从大量的多样本类别中分离出来,我们构建了测试集,该测试集由四个不同的子集组成:多样本集、中样本集、少样本集以及零样本开放集。此外,我们在数据上复现了若干重要的基线方法,涵盖了从基于搜索的方法到使用预训练BERT模型的神经网络方法。进一步地,我们提出了一种专门预训练的基于BERT的模型,在少样本和零样本测试集上展示了更好的泛化能力。与其他关注长尾现象的数据集相比,我们的数据集比现有最大的长尾数据集多一个数量级的训练数据,并且其分布是自然形成的而非人工合成的。我们认为这为研究这一问题提供了一个重要且不同的场景。据我们所知,这是第一个专注于长尾和开放集合分类问题的自然语言数据集。

代码仓库

基准测试

基准方法指标
long-tail-learning-on-lot-instsCharacter-BERT+RS
Macro-F1: 65.90
text-classification-on-lot-instsNaive Bayes
Accuracy: 72.2
Macro-F1: 50.2
text-classification-on-lot-instsFastText
Accuracy: 74.93
Macro-F1: 44.38
text-classification-on-lot-instsCD-V1
Accuracy: 79.97
Macro-F1: 59.64
text-classification-on-lot-instssCool
Accuracy: 76.72
Macro-F1: 52.41
text-classification-on-lot-instsCharacter-BERT+RS
Accuracy: 83.73
Macro-F1: 65.9

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
野生环境中的文本分类:一个大规模长尾名称规范化数据集 | 论文 | HyperAI超神经