4 个月前

线性时间的神经机器翻译

线性时间的神经机器翻译

摘要

我们提出了一种用于处理序列的新颖神经网络。ByteNet 是一种一维卷积神经网络,由两部分组成:一部分用于编码源序列,另一部分用于解码目标序列。这两部分网络通过将解码器堆叠在编码器之上并保持序列的时间分辨率来连接。为了解决源序列和目标序列长度不同的问题,我们引入了一种高效的机制,使得解码器可以动态地在编码器的表示上展开。ByteNet 在卷积层中使用扩张(dilation)技术来扩大其感受野。由此产生的网络具有两个核心特性:其运行时间与序列长度呈线性关系,并且避免了过度记忆的需求。ByteNet 解码器在字符级语言建模方面达到了最先进的性能,并且超过了以往基于循环网络的最佳结果。此外,ByteNet 在英德机器翻译任务的 WMT 翻译任务中也取得了最先进的性能,超越了基于循环网络和注意力池化的类似神经翻译模型,这些模型的运行时间为二次方复杂度。我们发现,表示中的潜在对齐结构反映了预期的标记对齐情况。

基准测试

基准方法指标
language-modelling-on-enwiki8ByteNet
Bit per Character (BPC): 1.31
machine-translation-on-wmt2014-english-germanByteNet
BLEU score: 23.75
Hardware Burden:
Operations per network pass:
machine-translation-on-wmt2015-english-germanByteNet
BLEU score: 26.3

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
线性时间的神经机器翻译 | 论文 | HyperAI超神经