3 个月前

基于外部指导的图像聚类

基于外部指导的图像聚类

摘要

聚类的核心在于引入先验知识以构建监督信号。从基于数据紧凑性的经典k-means方法,到近年来由自监督机制引导的对比聚类方法,聚类技术的发展本质上反映了监督信号演进的历程。目前,研究者已投入大量精力从数据内部挖掘监督信号,然而,诸如语义描述等丰富的外部知识——这些知识本可自然促进聚类——却遗憾地被忽视。本文提出将外部知识作为一种新型监督信号来引导聚类,即使其看似与给定数据无关。为实现并验证这一思想,我们设计了一种外部引导的聚类方法(文本辅助聚类,Text-Aided Clustering, TAC),该方法利用WordNet的文本语义信息来辅助图像聚类。具体而言,TAC首先筛选并检索能够最好区分图像的WordNet名词,以增强特征的可区分性;随后,为进一步提升图像聚类性能,TAC通过跨模态邻域信息的相互蒸馏,实现文本与图像模态之间的协同优化。实验结果表明,TAC在五个广泛使用的图像聚类基准以及三个更具挑战性的图像聚类基准上均取得了当前最优的性能表现,包括在完整的ImageNet-1K数据集上的实验。

代码仓库

基准测试

基准方法指标
image-classification-on-imagenet-10TAC
ARI: 0.983
image-clustering-on-cifar-10TAC
ARI: 0.831
Accuracy: 0.919
NMI: 0.833
image-clustering-on-cifar-20TAC
ARI: 0.448
Accuracy: 0.607
NMI: 0.611
image-clustering-on-dtdTAC
ARI: 34.4
Accuracy: 50.1
NMI: 62.1
image-clustering-on-imagenet-10TAC
Accuracy: 0.992
NMI: 0.985
image-clustering-on-imagenet-1kTAC
ARI: 0.435
Accuracy: 0.582
NMI: 0.799
image-clustering-on-stl-10TAC
ARI: 0.961
Accuracy: 0.982
NMI: 0.955
image-clustering-on-ucf101TAC
ARI: 0.601
Accuracy: 0.687
NMI: 0.823

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于外部指导的图像聚类 | 论文 | HyperAI超神经