4 个月前

基于激活记忆的快速参数学习

基于激活记忆的快速参数学习

摘要

使用反向传播训练的神经网络通常难以识别那些仅被观察到少数几次的类别。在大多数类别标签都较为罕见的应用中,如语言模型,这可能成为性能瓶颈。一种潜在的解决方案是通过添加一个快速学习的非参数模型来增强网络,该模型将最近的激活状态和类别标签存储到外部记忆中。我们探索了一种简化的架构,其中我们将模型的一部分参数视为快速记忆存储单元。这有助于在网络中保留更长时间的信息,而无需额外的空间或计算资源。在图像分类任务中,我们在Omniglot图像课程任务上展示了对新类别的更快绑定能力。此外,我们在基于词的语言模型上也取得了改进的性能,这些模型应用于新闻报道(GigaWord)、书籍(Project Gutenberg)和维基百科文章(WikiText-103),后者达到了29.2的最新最佳困惑度。注释:- 反向传播(backpropagation)- 非参数模型(non-parametric model)- 困惑度(perplexity)

基准测试

基准方法指标
language-modelling-on-wikitext-103LSTM (Hebbian)
Test perplexity: 34.3
Validation perplexity: 34.1
language-modelling-on-wikitext-103LSTM (Hebbian, Cache)
Test perplexity: 29.7
Validation perplexity: 29.9
language-modelling-on-wikitext-103LSTM
Test perplexity: 36.4
Validation perplexity: 36.0
language-modelling-on-wikitext-103LSTM (Hebbian, Cache, MbPA)
Test perplexity: 29.2
Validation perplexity: 29.0

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于激活记忆的快速参数学习 | 论文 | HyperAI超神经