
摘要
少样本序列标注是一种在数据稀缺场景下广泛适用于多种自然语言理解任务的通用问题范式,要求模型仅通过少量标注样本即可泛化到新的类别。近年来的研究大多采用基于度量的元学习方法,但这类方法面临两个主要挑战:难以有效建模类别多样且不明确的“其他”(Other)原型,以及在存在较大领域差异的新类别上泛化能力不足。为克服上述问题,本文提出一种分解式元学习框架,用于少样本序列标注。该框架将任务分解为少样本提及检测(few-shot mention detection)与少样本类型分类(few-shot type classification)两个子任务,并通过元学习分步求解。具体而言,我们采用模型无关的元学习(Model-Agnostic Meta-Learning, MAML)方法,引导提及检测模型学习跨类型共享的边界知识。在获得候选提及片段后,进一步利用MAML增强的片段级原型网络(span-level prototypical network)完成少样本类型分类。该分解结构有效规避了对“其他”类别原型进行建模的必要性。同时,MAML算法的引入使得模型能够更高效地挖掘支持集样本中的潜在知识,从而仅凭少量标注样本即可快速适应新类别。在该框架下,我们首先设计了一种基础实现方案,采用两个独立模型分别处理两个子任务。为进一步降低模型规模与推理时间,我们进一步提出一种联合模型,显著提升了模型在资源受限场景下的实用性。在九个基准数据集上的大量实验表明,涵盖命名实体识别、槽位标注、事件检测及词性标注等多种任务,所提方法在各类少样本序列标注任务中均取得了当前最优(state-of-the-art)性能。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| few-shot-ner-on-few-nerd-inter | DecomposedMetaSL | 10 way 1~2 shot: 55.61±0.32 10 way 5~10 shot: 67.85±0.18 5 way 1~2 shot: 62.09±0.93 5 way 5~10 shot: 71.26±0.15 Average: 63.99 |
| few-shot-ner-on-few-nerd-intra | DecomposedMetaSL | 10 way 1~2 shot: 43.03±0.29 10 way 5~10 shot: 57.58±0.26 5 way 1~2 shot: 49.90±0.33 5 way 5~10 shot: 64.36±0.20 Average: 53.72 |
| pos-tagging-on-twitter-pos | DecomposedMetaSL | Accuracy: 81.01±0.15 |
| pos-tagging-on-wsj-pos | DecomposedMetaSL | Accuracy: 91.78±0.21 |
| slot-filling-on-snips | DecomposedMetaSL | F1 (1-shot) avg: 74.89 F1 (5-shot) avg: 84.54 |