
摘要
基于CLIP和ImageBind的数据嵌入为多媒体及多模态数据的分析提供了强大的特征表示。本文在分类任务中评估了这些嵌入特征的性能,采用基于高斯混合模型(GMM)的层作为标准Softmax层的替代方案。近期研究表明,GMM-based分类器在端到端训练的深度学习流水线中展现出令人瞩目的性能。本文的首个贡献在于,系统研究了利用CLIP与ImageBind所生成的嵌入空间进行GMM分类的性能表现。第二个贡献是提出了一种参数量更少的新型GMM分类器,相较于先前方法具有更低的模型复杂度。研究发现,在大多数测试场景下,针对这些嵌入空间,每个类别仅需一个高斯分量即可有效表征,这表明GMM中的单分量结构已足够捕捉各类别特征。我们推测,这一现象可能源于CLIP与ImageBind在训练过程中所采用的对比损失(contrastive loss),该损失函数天然促使同一类别的特征在嵌入空间中聚集,从而增强了类内紧凑性。此外,实验还表明,即使在使用主成分分析(PCA)对嵌入空间进行压缩后,ImageBind在图像数据集分类任务中的表现通常仍优于CLIP。
代码仓库
cvmlmu/dgmmc
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| image-classification-on-cifar-10 | DGMMC-S | Top 1 Accuracy: 98.8 |
| image-classification-on-cifar-100 | DGMMC-S | Top 1 Accuracy: 91.2 |
| image-classification-on-esc-50 | SDGM-D | Top 1 Accuracy: 87 |
| image-classification-on-imagenet | DGMMC-S | Top 1 Accuracy: 84.1% |
| image-classification-on-mnist | DGMMC-S | Top 1 Accuracy: 70 |