4 个月前

通过最小熵和K-L散度正则化交叉熵损失

通过最小熵和K-L散度正则化交叉熵损失

摘要

我介绍了两种新颖的深度学习分类损失函数。这两种损失函数通过引入最小熵和Kullback-Leibler(K-L)散度项来扩展标准交叉熵损失。第一种新颖的损失函数称为混合熵损失(简称MIX-ENT),第二种则称为最小熵正则化交叉熵损失(简称MIN-ENT)。MIX-ENT函数引入了一个正则化项,该正则化项可以被证明等价于一个最小熵项和一个K-L散度项的和。然而,需要注意的是,这里的K-L散度项与标准交叉熵损失函数中的不同,因为它交换了目标概率和假设概率的角色。MIN-ENT函数则是在标准交叉熵损失函数中简单地添加了一个最小熵正则化项。在MIX-ENT和MIN-ENT中,最小熵正则化项都旨在最小化神经网络输出的假设概率分布的熵。在EMNIST-Letters数据集上的实验表明,我的MIX-ENT和MIN-ENT实现使得VGG模型从PapersWithCode排行榜上的第3位提升至第2位,超过了Spinal-VGG模型的表现。具体来说,使用标准交叉熵时,VGG模型达到了95.86%的分类准确率,而Spinal-VGG模型达到了95.88%;而在使用VGG模型(不使用Spinal-VGG)的情况下,我们的MIN-ENT实现了95.933%的准确率,MIX-ENT则实现了95.927%的准确率。MIX-ENT和MIN-ENT的预训练模型可以在https://github.com/rahmanoladi/minimum_entropy_project找到。

基准测试

基准方法指标
image-classification-on-emnist-lettersMIX-ENT + VGG-5
Accuracy: 95.928
image-classification-on-emnist-lettersMIN-ENT + VGG-5
Accuracy: 95.933

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
通过最小熵和K-L散度正则化交叉熵损失 | 论文 | HyperAI超神经