4 个月前

使用平行语料库进行跨语言命名实体识别:一种基于XLM-RoBERTa对齐的新方法

使用平行语料库进行跨语言命名实体识别:一种基于XLM-RoBERTa对齐的新方法

摘要

我们提出了一种利用平行语料库进行跨语言命名实体识别(NER)零样本迁移的新方法。我们在XLM-RoBERTa的基础上构建了一个实体对齐模型,该模型可以将平行数据中英语部分检测到的实体投影到目标语言句子上,其准确性超过了所有先前的无监督模型。通过这个对齐模型,我们可以获得目标语言的伪标记NER数据集,用于训练特定任务的模型。与使用翻译方法不同,这种方法能够从目标语言原始语料库中的自然流畅性和细微差别中受益。我们还提出了一种类似于焦点损失但权重分配方向相反的修改后的损失函数,以进一步提高在噪声伪标记数据集上的模型训练效果。我们在基准数据集上对4种目标语言进行了评估,获得了与最新SOTA模型相当的竞争性F1分数。此外,我们还详细讨论了平行语料库规模和领域对最终迁移性能的影响。

基准测试

基准方法指标
cross-lingual-ner-on-conll-2003XLM-RoBERTa-large
Dutch: 79.7
German: 76.9
Spanish: 78.9

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
使用平行语料库进行跨语言命名实体识别:一种基于XLM-RoBERTa对齐的新方法 | 论文 | HyperAI超神经