8 个月前

自然语言处理

自然语言处理

Iker García-Ferrero Rodrigo Agerri German Rigau

摘要

在缺乏给定序列标注任务和语言的现成标注数据的情况下，注释投影被提出作为一种自动生成标注数据的可能策略。注释投影通常被表述为在平行语料库中，将源语言中某一特定片段的标签传输到目标语言中的相应片段。本文介绍了一种新的注释投影方法——T-Projection，该方法利用了大规模预训练的文本到文本语言模型和最先进的机器翻译技术。T-Projection 将标签投影任务分解为两个子任务：(i) 候选生成步骤，使用多语言 T5 模型生成一组投影候选；(ii) 候选选择步骤，根据翻译概率对生成的候选进行排序。我们在 5 种印欧语系语言和 8 种低资源非洲语言上进行了内在和外在任务的实验，结果表明 T-Projection 在性能上显著优于之前的注释投影方法。我们相信 T-Projection 可以帮助自动缓解序列标注任务中高质量训练数据不足的问题。代码和数据已公开可用。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

自然语言处理

自然语言处理

Iker García-Ferrero Rodrigo Agerri German Rigau

摘要

在缺乏给定序列标注任务和语言的现成标注数据的情况下，注释投影被提出作为一种自动生成标注数据的可能策略。注释投影通常被表述为在平行语料库中，将源语言中某一特定片段的标签传输到目标语言中的相应片段。本文介绍了一种新的注释投影方法——T-Projection，该方法利用了大规模预训练的文本到文本语言模型和最先进的机器翻译技术。T-Projection 将标签投影任务分解为两个子任务：(i) 候选生成步骤，使用多语言 T5 模型生成一组投影候选；(ii) 候选选择步骤，根据翻译概率对生成的候选进行排序。我们在 5 种印欧语系语言和 8 种低资源非洲语言上进行了内在和外在任务的实验，结果表明 T-Projection 在性能上显著优于之前的注释投影方法。我们相信 T-Projection 可以帮助自动缓解序列标注任务中高质量训练数据不足的问题。代码和数据已公开可用。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供