3 个月前

面向大规模基于Transformer模型的异常值高效型Hopfield层

面向大规模基于Transformer模型的异常值高效型Hopfield层

摘要

我们提出了一种异常值高效型现代霍普菲尔德模型(简称 $\mathrm{OutEffHop}$),并利用该模型解决基于超大规模Transformer架构模型训练中的异常值低效问题。本文的主要贡献在于构建了一种新型关联记忆模型,能够实现异常值高效型的关联记忆检索。有趣的是,该记忆模型为一种异常值高效的注意力机制(${\rm Softmax}_1$)提供了基于模型的解释:它可被视为 $\mathrm{OutEffHop}$ 记忆检索过程的一种近似。在方法论层面,这一发现使我们能够引入新型的异常值高效型霍普菲尔德层,作为传统注意力机制的强大替代方案,并在量化后展现出更优的性能表现。在理论层面,$\mathrm{OutEffHop}$ 模型在保留标准现代霍普菲尔德模型优良特性(如固定点收敛性与指数级存储容量)的基础上,进一步提升了其性能。在实验验证方面,我们在多个大规模Transformer架构与霍普菲尔德架构模型(包括 BERT、OPT、ViT 以及 STanHop-Net)上验证了所提模型的有效性,其性能与当前最先进的方法(如 $\mathtt{Clipped_Softmax}$ 与 $\mathtt{Gated_Attention}$)进行了对比。值得注意的是,$\mathrm{OutEffHop}$ 在四个模型上平均降低了超过 22% 的峰度(kurtosis),并在模型输出的最大无穷范数(infinity norm)上实现了超过 26% 的降幅。代码已开源,可访问 GitHub:\href{https://github.com/MAGICS-LAB/OutEffHop}{GitHub};预训练模型已发布于 Hugging Face Hub:\href{https://huggingface.co/collections/magicslabnu/outeffhop-6610fcede8d2cda23009a98f}{Hugging Face Hub};后续更新请关注 arXiv:\href{https://arxiv.org/abs/2404.03828}{arXiv}。

代码仓库

magics-lab/outeffhop
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
benchmarking-on-wiki-40bOutEffHop-Bert_base
Perplexity: 6.209
quantization-on-wiki-40bOutEffHop-Bert_base
Perplexity: 6.295

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
面向大规模基于Transformer模型的异常值高效型Hopfield层 | 论文 | HyperAI超神经