3 个月前

多项式、三角函数和热带激活函数

多项式、三角函数和热带激活函数

摘要

在深度神经网络中,哪些函数可作为激活函数?本文探讨了基于正交基函数族的激活函数,包括埃尔米特多项式基、傅里叶三角函数基,以及由多项式基经“热带化”(tropicalization)变换所得的基函数。研究结果表明,通过简单的方差保持初始化(variance-preserving initialization),且无需额外的截断(clamping)机制,这些激活函数能够成功用于训练深层模型,例如在OpenWebText数据集上进行下一个词预测的GPT-2模型,以及在ImageNet数据集上进行图像分类的ConvNeXt模型。本研究有效缓解了多项式激活函数中常见的激活值与梯度爆炸或消失问题,为提升大规模学习任务的训练效率开辟了新路径。此外,该方法为理解神经网络的内在结构提供了新视角,揭示出使用多项式激活的网络本质上可被解释为多变量多项式映射。最后,通过埃尔米特插值(Hermite interpolation),我们证明了所提出的激活函数能够通过同时匹配函数值及其导数,精确逼近预训练模型中的经典激活形式,因而特别适用于微调(fine-tuning)任务。相关激活函数已集成于开源库 torchortho 中,可通过以下链接获取:https://github.com/K-H-Ismail/torchortho。

代码仓库

K-H-Ismail/torchortho
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
image-classification-on-imagenetConvNeXt-T-Hermite
Number of params: 28M
Top 1 Accuracy: 82.34
Top 5 Accuracy: 96.03
language-modelling-on-openwebtextGPT2-Tropical
eval_loss: 2.92
eval_perplexity: 18.64
parameters: 124M
language-modelling-on-openwebtextGPT2-GELU
eval_loss: 2.95
eval_perplexity: 19.24
parameters: 124M
language-modelling-on-openwebtextGPT2-Fourier
eval_loss: 2.93
eval_perplexity: 18.72
parameters: 124M
language-modelling-on-openwebtextGPT2-Hermite
eval_loss: 2.91
eval_perplexity: 18.39
parameters: 124M
text-generation-on-openwebtextGPT2-Hermite
eval_loss: 2.91

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
多项式、三角函数和热带激活函数 | 论文 | HyperAI超神经