
摘要
使用反向传播训练的神经网络通常难以识别那些仅被观察到少数几次的类别。在大多数类别标签都较为罕见的应用中,如语言模型,这可能成为性能瓶颈。一种潜在的解决方案是通过添加一个快速学习的非参数模型来增强网络,该模型将最近的激活状态和类别标签存储到外部记忆中。我们探索了一种简化的架构,其中我们将模型的一部分参数视为快速记忆存储单元。这有助于在网络中保留更长时间的信息,而无需额外的空间或计算资源。在图像分类任务中,我们在Omniglot图像课程任务上展示了对新类别的更快绑定能力。此外,我们在基于词的语言模型上也取得了改进的性能,这些模型应用于新闻报道(GigaWord)、书籍(Project Gutenberg)和维基百科文章(WikiText-103),后者达到了29.2的最新最佳困惑度。注释:- 反向传播(backpropagation)- 非参数模型(non-parametric model)- 困惑度(perplexity)
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| language-modelling-on-wikitext-103 | LSTM (Hebbian) | Test perplexity: 34.3 Validation perplexity: 34.1 |
| language-modelling-on-wikitext-103 | LSTM (Hebbian, Cache) | Test perplexity: 29.7 Validation perplexity: 29.9 |
| language-modelling-on-wikitext-103 | LSTM | Test perplexity: 36.4 Validation perplexity: 36.0 |
| language-modelling-on-wikitext-103 | LSTM (Hebbian, Cache, MbPA) | Test perplexity: 29.2 Validation perplexity: 29.0 |