
摘要
本文探讨了超网络(hypernetworks):一种利用一个网络(即超网络)来生成另一个网络权重的方法。超网络提供了一种类似于自然界中基因型与表型之间关系的抽象机制——其中超网络对应于基因型,而主网络则对应于表型。尽管这一概念与进化计算中的HyperNEAT有相似之处,但本文所提出的超网络采用端到端的反向传播进行训练,因此通常具有更高的效率。本研究的重点在于使超网络适用于深度卷积网络和长程循环网络,其中超网络可被视为层间权重共享的一种松弛形式。我们的主要成果表明,超网络能够为LSTM生成非共享权重,并在多种序列建模任务(包括字符级语言建模、手写生成和神经机器翻译)中取得接近当前最先进水平的性能,从而对循环网络中的权重共享范式提出了挑战。此外,实验结果还显示,将超网络应用于卷积网络时,其在图像识别任务上的表现仍可与当前最先进的基线模型相媲美,同时所需的可学习参数更少。
代码仓库
gahaalt/continual-learning-overview
tf
GitHub 中提及
tjuhaoxiaotian/pymarl3
pytorch
GitHub 中提及
shyamsn97/hyper-nn
jax
GitHub 中提及
g1910/HyperNetworks
pytorch
GitHub 中提及
gahaalt/continual-learning-with-hypernets
tf
GitHub 中提及
chrhenning/hypnettorch
pytorch
GitHub 中提及
gtegner/hyper-gan
pytorch
GitHub 中提及
cellistigs/ensemble_attention
pytorch
GitHub 中提及
pennfranc/hypnettorch
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| language-modelling-on-enwiki8 | Hypernetworks | Bit per Character (BPC): 1.34 Number of params: 27M |
| language-modelling-on-penn-treebank-character | 2-layer Norm HyperLSTM | Bit per Character (BPC): 1.219 Number of params: 14.4M |