
摘要
少样本序列标注(Few-Shot Sequence Labeling, FSSL)是标签模型(如命名实体识别和槽位填充)在新兴、资源稀缺领域中实现泛化的一种典型范式。近年来,基于度量的元学习框架被广泛认为是解决FSSL问题的一种有前景的方法。然而,大多数现有方法基于词元级别的相似性为每个词元分配标签,忽略了命名实体或槽位的整体性特征。针对这一问题,本文提出了一种增强的基于跨度的分解方法——ESD(Enhanced Span-based Decomposition),用于FSSL任务。ESD将FSSL建模为测试查询与支持实例之间的跨度级别匹配问题。具体而言,ESD将跨度匹配过程分解为一系列跨度级别的操作,主要包括:增强的跨度表示、类别原型聚合以及跨度冲突的解决。大量实验表明,ESD在两个主流FSSL基准数据集FewNERD和SNIPS上均取得了新的最先进性能,并在嵌套标注和噪声标注场景下展现出更强的鲁棒性。相关代码已开源,地址为:https://github.com/Wangpeiyi9979/ESD。
代码仓库
wangpeiyi9979/esd
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| few-shot-ner-on-few-nerd-inter | ESD | 10 way 1~2 shot: 52.16±0.79 10 way 5~10 shot: 64.00±0.43 5 way 1~2 shot: 59.29±1.25 5 way 5~10 shot: 69.06±0.80 |
| few-shot-ner-on-few-nerd-intra | ESD | 10 way 1~2 shot: 30.00±0.70 10 way 5~10 shot: 42.15±2.60 5 way 1~2 shot: 36.08±1.60 5 way 5~10 shot: 52.14±1.50 |