4 个月前

零资源环境下的跨语言序列标注中的模型和数据迁移

Iker García-Ferrero; Rodrigo Agerri; German Rigau

摘要

零资源跨语言迁移方法旨在将源语言中的监督模型应用于未标注的目标语言。本文对迄今为止用于跨语言零资源序列标注的两种主要技术进行了深入研究，即基于数据的迁移和基于模型的迁移。尽管先前的研究提出翻译和注释投影（基于数据的跨语言迁移）是一种有效的跨语言序列标注技术，但本文通过实验表明，在零样本设置下应用高容量多语言模型（基于模型的跨语言迁移）在性能上始终优于基于数据的跨语言迁移方法。我们对结果的详细分析表明，这可能是由于不同语言使用的重要差异所致。具体而言，机器翻译生成的文本信号往往与使用黄金标准数据时模型所接触的内容不同，这会影响微调和评估过程。此外，我们的结果还显示，当无法获得高容量多语言模型时，基于数据的跨语言迁移方法仍然是一个具有竞争力的选择。

代码仓库

ikergarcia1996/easy-label-projection

官方

pytorch

GitHub 中提及

ikergarcia1996/annotation-projection-app

官方

GitHub 中提及

ikergarcia1996/Easy-Translate

官方

pytorch

ikergarcia1996/Iker-Garcia-Ferrero

GitHub 中提及

基准测试

基准	方法	指标
cross-lingual-ner-on-conll-2003	XLM-RoBERTa-large	Dutch: 82.3 German: 74.5 Spanish: 79.5
cross-lingual-ner-on-conll-dutch	XLM-R large	F1: 79.7
cross-lingual-ner-on-conll-german	XLM-R large	F1: 74.5
cross-lingual-ner-on-conll-spanish	XLM-R large	F1: 79.5

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程

即用型 GPU

最优价格

立即开始

Hyper Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供