8 个月前

摘要

我介绍了两种新颖的深度学习分类损失函数。这两种损失函数通过引入最小熵和Kullback-Leibler（K-L）散度项来扩展标准交叉熵损失。第一种新颖的损失函数称为混合熵损失（简称MIX-ENT），第二种则称为最小熵正则化交叉熵损失（简称MIN-ENT）。MIX-ENT函数引入了一个正则化项，该正则化项可以被证明等价于一个最小熵项和一个K-L散度项的和。然而，需要注意的是，这里的K-L散度项与标准交叉熵损失函数中的不同，因为它交换了目标概率和假设概率的角色。MIN-ENT函数则是在标准交叉熵损失函数中简单地添加了一个最小熵正则化项。在MIX-ENT和MIN-ENT中，最小熵正则化项都旨在最小化神经网络输出的假设概率分布的熵。在EMNIST-Letters数据集上的实验表明，我的MIX-ENT和MIN-ENT实现使得VGG模型从PapersWithCode排行榜上的第3位提升至第2位，超过了Spinal-VGG模型的表现。具体来说，使用标准交叉熵时，VGG模型达到了95.86%的分类准确率，而Spinal-VGG模型达到了95.88%；而在使用VGG模型（不使用Spinal-VGG）的情况下，我们的MIN-ENT实现了95.933%的准确率，MIX-ENT则实现了95.927%的准确率。MIX-ENT和MIN-ENT的预训练模型可以在https://github.com/rahmanoladi/minimum_entropy_project找到。

源 PDF 查看代码