4 个月前

用于序列建模的格状网络

用于序列建模的格状网络

摘要

我们介绍了用于序列建模的新架构——格网网络(trellis networks)。一方面,格网网络是一种具有特殊结构的时间卷积网络,其特点是深度上的权重共享以及输入直接注入深层。另一方面,我们证明了截断的递归神经网络等价于在权重矩阵中具有特殊稀疏结构的格网网络。因此,具有通用权重矩阵的格网网络可以看作是截断递归神经网络的泛化形式。我们利用这些联系设计了高性能的格网网络,吸收了递归模型和卷积模型中的结构和算法元素。实验结果表明,格网网络在多种具有挑战性的基准测试中优于当前最先进的方法,包括词级语言建模和字符级语言建模任务,以及旨在评估长期记忆保留的压力测试。代码可在 https://github.com/locuslab/trellisnet 获取。

代码仓库

locuslab/trellisnet
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
language-modelling-on-penn-treebank-characterTrellis Network
Bit per Character (BPC): 1.158
Number of params: 13.4M
language-modelling-on-penn-treebank-wordTrellis Network
Test perplexity: 54.19
language-modelling-on-wikitext-103Trellis Network
Test perplexity: 29.19
sequential-image-classification-on-sequential-1Trellis Network
Unpermuted Accuracy: 73.42%

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
用于序列建模的格状网络 | 论文 | HyperAI超神经