
摘要
现实世界中的数据通常表现出长尾分布,其中少数标签出现频率较高,而大量标签则属于少样本(few-shot)标签。机构名称规范化研究是一个展示这种现象的完美应用案例。全球各地的机构在公开文献中名称变化多样,种类繁多。在这项工作中,我们首先收集了一个大规模的机构名称规范化数据集 LoT-insts1,该数据集包含超过25,000个类别,这些类别的分布自然呈现长尾特征。为了将少样本和零样本学习场景从大量的多样本类别中分离出来,我们构建了测试集,该测试集由四个不同的子集组成:多样本集、中样本集、少样本集以及零样本开放集。此外,我们在数据上复现了若干重要的基线方法,涵盖了从基于搜索的方法到使用预训练BERT模型的神经网络方法。进一步地,我们提出了一种专门预训练的基于BERT的模型,在少样本和零样本测试集上展示了更好的泛化能力。与其他关注长尾现象的数据集相比,我们的数据集比现有最大的长尾数据集多一个数量级的训练数据,并且其分布是自然形成的而非人工合成的。我们认为这为研究这一问题提供了一个重要且不同的场景。据我们所知,这是第一个专注于长尾和开放集合分类问题的自然语言数据集。
代码仓库
lumia-group/lot-insts
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| long-tail-learning-on-lot-insts | Character-BERT+RS | Macro-F1: 65.90 |
| text-classification-on-lot-insts | Naive Bayes | Accuracy: 72.2 Macro-F1: 50.2 |
| text-classification-on-lot-insts | FastText | Accuracy: 74.93 Macro-F1: 44.38 |
| text-classification-on-lot-insts | CD-V1 | Accuracy: 79.97 Macro-F1: 59.64 |
| text-classification-on-lot-insts | sCool | Accuracy: 76.72 Macro-F1: 52.41 |
| text-classification-on-lot-insts | Character-BERT+RS | Accuracy: 83.73 Macro-F1: 65.9 |