
摘要
先前在跨语言命名实体识别(NER)领域中,针对没有或仅有少量标注数据的研究主要分为两类:基于模型迁移的方法和基于数据迁移的方法。本文发现,这两种方法可以相互补充。前者可以通过语言无关特征利用上下文信息,但在目标语言中无法获取任务特定信息;而后者通常通过翻译生成伪目标语言训练数据,但不准确的翻译会削弱其对上下文信息的利用。此外,先前的研究很少利用目标语言中的未标注数据,这些数据可以轻松收集,并且可能包含有助于提高结果的有价值信息。为了解决这两个问题,我们提出了一种新的方法——UniTrans,该方法统一了模型迁移和数据迁移以进行跨语言NER,并进一步通过增强的知识蒸馏技术利用未标注目标语言数据中的可用信息。我们在基准数据集上对4种目标语言进行了UniTrans的评估。实验结果表明,该方法显著优于现有的最先进方法。
代码仓库
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| cross-lingual-ner-on-conll-dutch | UniTrans | F1: 82.9 |
| cross-lingual-ner-on-conll-german | UniTrans | F1: 74.82 |
| cross-lingual-ner-on-conll-spanish | UniTrans | F1: 79.31 |
| cross-lingual-ner-on-nodalida-norwegian | UniTrans | F1: 81.17 |