
摘要
零资源跨语言迁移方法旨在将源语言中的监督模型应用于未标注的目标语言。本文对迄今为止用于跨语言零资源序列标注的两种主要技术进行了深入研究,即基于数据的迁移和基于模型的迁移。尽管先前的研究提出翻译和注释投影(基于数据的跨语言迁移)是一种有效的跨语言序列标注技术,但本文通过实验表明,在零样本设置下应用高容量多语言模型(基于模型的跨语言迁移)在性能上始终优于基于数据的跨语言迁移方法。我们对结果的详细分析表明,这可能是由于不同语言使用的重要差异所致。具体而言,机器翻译生成的文本信号往往与使用黄金标准数据时模型所接触的内容不同,这会影响微调和评估过程。此外,我们的结果还显示,当无法获得高容量多语言模型时,基于数据的跨语言迁移方法仍然是一个具有竞争力的选择。
代码仓库
ikergarcia1996/easy-label-projection
官方
pytorch
GitHub 中提及
ikergarcia1996/annotation-projection-app
官方
GitHub 中提及
ikergarcia1996/Easy-Translate
官方
pytorch
ikergarcia1996/Iker-Garcia-Ferrero
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| cross-lingual-ner-on-conll-2003 | XLM-RoBERTa-large | Dutch: 82.3 German: 74.5 Spanish: 79.5 |
| cross-lingual-ner-on-conll-dutch | XLM-R large | F1: 79.7 |
| cross-lingual-ner-on-conll-german | XLM-R large | F1: 74.5 |
| cross-lingual-ner-on-conll-spanish | XLM-R large | F1: 79.5 |