8 个月前

自然语言处理

自然语言处理

Yang Chen Chao Jiang Alan Ritter Wei Xu

摘要

将训练数据翻译成多种语言已成为提高跨语言迁移性能的一种实用解决方案。对于涉及片段级注释的任务，如信息提取或问答，需要额外的标签投影步骤，以将注释的片段映射到翻译后的文本上。最近，一些研究尝试使用一种简单的标记-然后翻译方法，在原始句子中标记注释片段后进行翻译和投影。然而，据我们所知，尚未有实证分析比较这种方法与基于词对齐的传统注释投影方法的效果。在本文中，我们在57种语言和三项任务（问答、命名实体识别和事件抽取）上进行了广泛的实证研究，评估了这两种方法的有效性和局限性，填补了文献中的一个重要空白。实验结果表明，我们优化的标记-然后翻译方法（称为EasyProject）易于应用于多种语言，并且表现令人惊讶地好，优于更为复杂的基于词对齐的方法。我们分析了影响最终任务性能的几个关键因素，并展示了EasyProject之所以效果良好是因为它能够在翻译后准确地保留标签片段边界。我们将公开发布所有代码和数据。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

自然语言处理

自然语言处理

Yang Chen Chao Jiang Alan Ritter Wei Xu

摘要

将训练数据翻译成多种语言已成为提高跨语言迁移性能的一种实用解决方案。对于涉及片段级注释的任务，如信息提取或问答，需要额外的标签投影步骤，以将注释的片段映射到翻译后的文本上。最近，一些研究尝试使用一种简单的标记-然后翻译方法，在原始句子中标记注释片段后进行翻译和投影。然而，据我们所知，尚未有实证分析比较这种方法与基于词对齐的传统注释投影方法的效果。在本文中，我们在57种语言和三项任务（问答、命名实体识别和事件抽取）上进行了广泛的实证研究，评估了这两种方法的有效性和局限性，填补了文献中的一个重要空白。实验结果表明，我们优化的标记-然后翻译方法（称为EasyProject）易于应用于多种语言，并且表现令人惊讶地好，优于更为复杂的基于词对齐的方法。我们分析了影响最终任务性能的几个关键因素，并展示了EasyProject之所以效果良好是因为它能够在翻译后准确地保留标签片段边界。我们将公开发布所有代码和数据。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供