3 个月前

卷积序列建模的再思考

卷积序列建模的再思考

摘要

本文重新审视了基于卷积架构进行序列建模的问题。尽管卷积网络与循环网络在序列预测领域均拥有悠久的发展历史,但当前深度学习领域普遍持有的“默认”观点认为,通用的序列建模任务应优先采用循环神经网络(RNN)来处理。本文旨在质疑这一主流假设。具体而言,我们提出一种简单而通用的时序卷积网络(Temporal Convolutional Network, TCN),该架构借鉴了现代卷积神经网络(ConvNet)中的关键设计,如空洞卷积(dilation)和残差连接(residual connections)。实验结果表明,在多种序列建模任务上——包括大量常用于评估循环网络性能的基准任务——TCN的表现优于传统的RNN基线方法(如LSTM、GRU及普通RNN),甚至在某些情况下超越了高度定制化的专门方法。此外,我们进一步揭示,循环网络相较于卷积网络所具有的所谓“无限记忆”优势,在实际应用中并不存在显著体现:事实上,TCN能够实现比其循环对应模型更长的有效历史记忆长度。综上所述,我们认为,是时候重新考虑将卷积网络(ConvNets)作为序列建模的默认首选架构了。

基准测试

基准方法指标
language-modelling-on-wikitext-103Temporal CNN
Test perplexity: 45.2
Validation perplexity: -

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
卷积序列建模的再思考 | 论文 | HyperAI超神经