7 个月前

卷积神经网络

自然语言处理

自然语言处理

Nal Kalchbrenner Lasse Espeholt Karen Simonyan Aäron van den Oord Alex Graves Koray Kavukcuoglu

摘要

我们提出了一种用于处理序列的新颖神经网络。ByteNet 是一种一维卷积神经网络，由两部分组成：一部分用于编码源序列，另一部分用于解码目标序列。这两部分网络通过将解码器堆叠在编码器之上并保持序列的时间分辨率来连接。为了解决源序列和目标序列长度不同的问题，我们引入了一种高效的机制，使得解码器可以动态地在编码器的表示上展开。ByteNet 在卷积层中使用扩张（dilation）技术来扩大其感受野。由此产生的网络具有两个核心特性：其运行时间与序列长度呈线性关系，并且避免了过度记忆的需求。ByteNet 解码器在字符级语言建模方面达到了最先进的性能，并且超过了以往基于循环网络的最佳结果。此外，ByteNet 在英德机器翻译任务的 WMT 翻译任务中也取得了最先进的性能，超越了基于循环网络和注意力池化的类似神经翻译模型，这些模型的运行时间为二次方复杂度。我们发现，表示中的潜在对齐结构反映了预期的标记对齐情况。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

7 个月前

卷积神经网络

自然语言处理

自然语言处理

Nal Kalchbrenner Lasse Espeholt Karen Simonyan Aäron van den Oord Alex Graves Koray Kavukcuoglu

摘要

我们提出了一种用于处理序列的新颖神经网络。ByteNet 是一种一维卷积神经网络，由两部分组成：一部分用于编码源序列，另一部分用于解码目标序列。这两部分网络通过将解码器堆叠在编码器之上并保持序列的时间分辨率来连接。为了解决源序列和目标序列长度不同的问题，我们引入了一种高效的机制，使得解码器可以动态地在编码器的表示上展开。ByteNet 在卷积层中使用扩张（dilation）技术来扩大其感受野。由此产生的网络具有两个核心特性：其运行时间与序列长度呈线性关系，并且避免了过度记忆的需求。ByteNet 解码器在字符级语言建模方面达到了最先进的性能，并且超过了以往基于循环网络的最佳结果。此外，ByteNet 在英德机器翻译任务的 WMT 翻译任务中也取得了最先进的性能，超越了基于循环网络和注意力池化的类似神经翻译模型，这些模型的运行时间为二次方复杂度。我们发现，表示中的潜在对齐结构反映了预期的标记对齐情况。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供