6 个月前

自然语言处理

自然语言处理

Ivan Provilkov Dmitrii Emelianenko Elena Voita

摘要

子词切分（subword segmentation）被广泛用于解决机器翻译中的开放词汇表问题。目前主流的子词切分方法是字节对编码（Byte Pair Encoding, BPE），该方法保留高频词的完整性，同时将低频词拆分为多个子词单元。尽管在相同词汇表下可能存在多种不同的切分方式，BPE却会将每个词唯一地切分为确定的子词序列，这种确定性可能阻碍模型更好地学习词的构成性特征，并降低对切分错误的鲁棒性。迄今为止，克服BPE这一确定性缺陷的唯一方法是设计新的子词切分算法（Kudo, 2018）。相比之下，我们证明BPE本身具备生成同一词语多种切分结果的能力。为此，我们提出BPE-dropout——一种基于传统BPE、简单且有效的子词正则化方法。该方法通过随机扰动BPE的切分过程，在保持固定BPE词汇框架的前提下，使同一词语在训练过程中产生多种不同的切分形式。在训练阶段使用BPE-dropout，推理阶段采用标准BPE，可使翻译性能相比传统BPE提升最高达3 BLEU，相比先前的子词正则化方法提升最高达0.9 BLEU。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

自然语言处理

自然语言处理

Ivan Provilkov Dmitrii Emelianenko Elena Voita

摘要

子词切分（subword segmentation）被广泛用于解决机器翻译中的开放词汇表问题。目前主流的子词切分方法是字节对编码（Byte Pair Encoding, BPE），该方法保留高频词的完整性，同时将低频词拆分为多个子词单元。尽管在相同词汇表下可能存在多种不同的切分方式，BPE却会将每个词唯一地切分为确定的子词序列，这种确定性可能阻碍模型更好地学习词的构成性特征，并降低对切分错误的鲁棒性。迄今为止，克服BPE这一确定性缺陷的唯一方法是设计新的子词切分算法（Kudo, 2018）。相比之下，我们证明BPE本身具备生成同一词语多种切分结果的能力。为此，我们提出BPE-dropout——一种基于传统BPE、简单且有效的子词正则化方法。该方法通过随机扰动BPE的切分过程，在保持固定BPE词汇框架的前提下，使同一词语在训练过程中产生多种不同的切分形式。在训练阶段使用BPE-dropout，推理阶段采用标准BPE，可使翻译性能相比传统BPE提升最高达3 BLEU，相比先前的子词正则化方法提升最高达0.9 BLEU。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供