7 个月前

自然语言处理

自然语言处理

Rico Sennrich; Barry Haddow; Alexandra Birch

摘要

神经机器翻译（NMT）模型通常使用固定词汇表进行操作，但翻译是一个开放词汇问题。先前的研究通过回退到词典来解决未登录词的翻译问题。在本文中，我们介绍了一种更简单且更有效的方法，通过将罕见词和未知词编码为子词单元序列，使NMT模型具备开放词汇翻译的能力。这一方法基于这样的直觉：各种词类可以通过比单词更小的单元进行翻译，例如名字（通过字符复制或音译）、复合词（通过组合翻译）以及同源词和借词（通过音韵和形态转换）。我们讨论了不同词语切分技术的适用性，包括简单的字符n-gram模型和基于字节对编码压缩算法的切分方法，并通过实验证明，对于WMT 15英德和英俄翻译任务，子词模型分别比回退词典基线提高了1.1和1.3个BLEU分数。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

7 个月前

自然语言处理

自然语言处理

Rico Sennrich; Barry Haddow; Alexandra Birch

摘要

神经机器翻译（NMT）模型通常使用固定词汇表进行操作，但翻译是一个开放词汇问题。先前的研究通过回退到词典来解决未登录词的翻译问题。在本文中，我们介绍了一种更简单且更有效的方法，通过将罕见词和未知词编码为子词单元序列，使NMT模型具备开放词汇翻译的能力。这一方法基于这样的直觉：各种词类可以通过比单词更小的单元进行翻译，例如名字（通过字符复制或音译）、复合词（通过组合翻译）以及同源词和借词（通过音韵和形态转换）。我们讨论了不同词语切分技术的适用性，包括简单的字符n-gram模型和基于字节对编码压缩算法的切分方法，并通过实验证明，对于WMT 15英德和英俄翻译任务，子词模型分别比回退词典基线提高了1.1和1.3个BLEU分数。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供