4 个月前

令人沮丧的简单标签投影用于跨语言迁移

令人沮丧的简单标签投影用于跨语言迁移

摘要

将训练数据翻译成多种语言已成为提高跨语言迁移性能的一种实用解决方案。对于涉及片段级注释的任务,如信息提取或问答,需要额外的标签投影步骤,以将注释的片段映射到翻译后的文本上。最近,一些研究尝试使用一种简单的标记-然后翻译方法,在原始句子中标记注释片段后进行翻译和投影。然而,据我们所知,尚未有实证分析比较这种方法与基于词对齐的传统注释投影方法的效果。在本文中,我们在57种语言和三项任务(问答、命名实体识别和事件抽取)上进行了广泛的实证研究,评估了这两种方法的有效性和局限性,填补了文献中的一个重要空白。实验结果表明,我们优化的标记-然后翻译方法(称为EasyProject)易于应用于多种语言,并且表现令人惊讶地好,优于更为复杂的基于词对齐的方法。我们分析了影响最终任务性能的几个关键因素,并展示了EasyProject之所以效果良好是因为它能够在翻译后准确地保留标签片段边界。我们将公开发布所有代码和数据。

代码仓库

edchengg/easyproject
官方
pytorch
GitHub 中提及
edchengg/transfusion
pytorch
GitHub 中提及

基准测试

基准方法指标
cross-lingual-ner-on-masakhaner2-0EasyProject
Akan/Twi: 65.3
Bambara: 45.8
Chichewa: 75.3
Ewe: 78.5
Fon: 61.4
Hausa: 72.2
Igbo: 65.6
Kinyarwanda: 71.0
Kiswahili: 83.6
Luganda: 76.7
Luo: 50.2
Mossi: 53.1
Setswana: 74.0
Wolof: 58.9
Yoruba: 36.8
chiShona: 55.9
isiXhosa: 71.1
isiZulu: 73.0

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
令人沮丧的简单标签投影用于跨语言迁移 | 论文 | HyperAI超神经