超网络

摘要

本文探讨了超网络(hypernetworks):一种利用一个网络(即超网络)来生成另一个网络权重的方法。超网络提供了一种类似于自然界中基因型与表型之间关系的抽象机制——其中超网络对应于基因型,而主网络则对应于表型。尽管这一概念与进化计算中的HyperNEAT有相似之处,但本文所提出的超网络采用端到端的反向传播进行训练,因此通常具有更高的效率。本研究的重点在于使超网络适用于深度卷积网络和长程循环网络,其中超网络可被视为层间权重共享的一种松弛形式。我们的主要成果表明,超网络能够为LSTM生成非共享权重,并在多种序列建模任务(包括字符级语言建模、手写生成和神经机器翻译)中取得接近当前最先进水平的性能,从而对循环网络中的权重共享范式提出了挑战。此外,实验结果还显示,将超网络应用于卷积网络时,其在图像识别任务上的表现仍可与当前最先进的基线模型相媲美,同时所需的可学习参数更少。

代码仓库

tjuhaoxiaotian/pymarl3
pytorch
GitHub 中提及
shyamsn97/hyper-nn
jax
GitHub 中提及
g1910/HyperNetworks
pytorch
GitHub 中提及
chrhenning/hypnettorch
pytorch
GitHub 中提及
gtegner/hyper-gan
pytorch
GitHub 中提及
cellistigs/ensemble_attention
pytorch
GitHub 中提及
pennfranc/hypnettorch
pytorch
GitHub 中提及

基准测试

基准方法指标
language-modelling-on-enwiki8Hypernetworks
Bit per Character (BPC): 1.34
Number of params: 27M
language-modelling-on-penn-treebank-character2-layer Norm HyperLSTM
Bit per Character (BPC): 1.219
Number of params: 14.4M

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
超网络 | 论文 | HyperAI超神经