
摘要
将训练数据翻译成多种语言已成为提高跨语言迁移性能的一种实用解决方案。对于涉及片段级注释的任务,如信息提取或问答,需要额外的标签投影步骤,以将注释的片段映射到翻译后的文本上。最近,一些研究尝试使用一种简单的标记-然后翻译方法,在原始句子中标记注释片段后进行翻译和投影。然而,据我们所知,尚未有实证分析比较这种方法与基于词对齐的传统注释投影方法的效果。在本文中,我们在57种语言和三项任务(问答、命名实体识别和事件抽取)上进行了广泛的实证研究,评估了这两种方法的有效性和局限性,填补了文献中的一个重要空白。实验结果表明,我们优化的标记-然后翻译方法(称为EasyProject)易于应用于多种语言,并且表现令人惊讶地好,优于更为复杂的基于词对齐的方法。我们分析了影响最终任务性能的几个关键因素,并展示了EasyProject之所以效果良好是因为它能够在翻译后准确地保留标签片段边界。我们将公开发布所有代码和数据。
代码仓库
edchengg/easyproject
官方
pytorch
GitHub 中提及
edchengg/transfusion
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| cross-lingual-ner-on-masakhaner2-0 | EasyProject | Akan/Twi: 65.3 Bambara: 45.8 Chichewa: 75.3 Ewe: 78.5 Fon: 61.4 Hausa: 72.2 Igbo: 65.6 Kinyarwanda: 71.0 Kiswahili: 83.6 Luganda: 76.7 Luo: 50.2 Mossi: 53.1 Setswana: 74.0 Wolof: 58.9 Yoruba: 36.8 chiShona: 55.9 isiXhosa: 71.1 isiZulu: 73.0 |