4 个月前

T-投影:高质量序列标注任务的注释投影方法

T-投影:高质量序列标注任务的注释投影方法

摘要

在缺乏给定序列标注任务和语言的现成标注数据的情况下,注释投影被提出作为一种自动生成标注数据的可能策略。注释投影通常被表述为在平行语料库中,将源语言中某一特定片段的标签传输到目标语言中的相应片段。本文介绍了一种新的注释投影方法——T-Projection,该方法利用了大规模预训练的文本到文本语言模型和最先进的机器翻译技术。T-Projection 将标签投影任务分解为两个子任务:(i) 候选生成步骤,使用多语言 T5 模型生成一组投影候选;(ii) 候选选择步骤,根据翻译概率对生成的候选进行排序。我们在 5 种印欧语系语言和 8 种低资源非洲语言上进行了内在和外在任务的实验,结果表明 T-Projection 在性能上显著优于之前的注释投影方法。我们相信 T-Projection 可以帮助自动缓解序列标注任务中高质量训练数据不足的问题。代码和数据已公开可用。

代码仓库

ikergarcia1996/t-projection
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
cross-lingual-ner-on-masakhaner2-0T-Projection
Chichewa: 77.8
Hausa: 72.7
Igbo: 71.6
Kiswahili: 84.5
Yoruba: 42.7
chiShona: 74.9
isiXhosa: 72.3
isiZulu: 66.7

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
T-投影:高质量序列标注任务的注释投影方法 | 论文 | HyperAI超神经