
摘要
在缺乏给定序列标注任务和语言的现成标注数据的情况下,注释投影被提出作为一种自动生成标注数据的可能策略。注释投影通常被表述为在平行语料库中,将源语言中某一特定片段的标签传输到目标语言中的相应片段。本文介绍了一种新的注释投影方法——T-Projection,该方法利用了大规模预训练的文本到文本语言模型和最先进的机器翻译技术。T-Projection 将标签投影任务分解为两个子任务:(i) 候选生成步骤,使用多语言 T5 模型生成一组投影候选;(ii) 候选选择步骤,根据翻译概率对生成的候选进行排序。我们在 5 种印欧语系语言和 8 种低资源非洲语言上进行了内在和外在任务的实验,结果表明 T-Projection 在性能上显著优于之前的注释投影方法。我们相信 T-Projection 可以帮助自动缓解序列标注任务中高质量训练数据不足的问题。代码和数据已公开可用。
代码仓库
ikergarcia1996/t-projection
官方
pytorch
GitHub 中提及
ikergarcia1996/Iker-Garcia-Ferrero
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| cross-lingual-ner-on-masakhaner2-0 | T-Projection | Chichewa: 77.8 Hausa: 72.7 Igbo: 71.6 Kiswahili: 84.5 Yoruba: 42.7 chiShona: 74.9 isiXhosa: 72.3 isiZulu: 66.7 |