4 个月前

TTD:文本-标签自蒸馏增强CLIP中的图像-文本对齐以缓解单标签偏差

TTD:文本-标签自蒸馏增强CLIP中的图像-文本对齐以缓解单标签偏差

摘要

我们在当前基于CLIP的模型中发现了一个关键偏见,我们称之为单标签偏见(single tag bias)。这种偏见表现为对单一标签(单词)的过度关注,而忽视了其他相关的标签,其根源在于CLIP的文本嵌入在图像-文本关系中优先考虑一个特定的标签。当将文本分解为单独的标签时,通常只有一个标签与CLIP的图像嵌入具有高相关性,从而导致标签相关性的偏差。在本文中,我们提出了一种新颖的两步微调方法——文本-标签自蒸馏(Text-Tag Self-Distillation, TTD),以解决这一问题。TTD首先根据标签与最近像素的相似性从文本中提取与图像相关的标签,然后采用自蒸馏策略将组合掩码与从文本派生的掩码对齐。这种方法仅使用图像-文本对即可确保基于CLIP的模型实现无偏见的图像-文本对齐,而无需额外的监督。我们的技术在多标签分类和分割任务中展示了模型无关性的改进,超越了依赖外部资源的竞争方法。代码可在https://github.com/shjo-april/TTD 获取。

代码仓库

shjo-april/TTD
官方
GitHub 中提及

基准测试

基准方法指标
multi-label-text-classification-on-cc3mTTD (w/o fine-tuning)
Accuracy: 91.0
F1: 78.5
Precision: 82.9
Recall: 74.5
mAP: 90.3
multi-label-text-classification-on-cc3mTTD (w/ fine-tuning)
Accuracy: 88.6
F1: 82.8
Precision: 88.3
Recall: 78.0
mAP: 93.7
open-vocabulary-semantic-segmentation-onTTD (MaskCLIP)
mIoU: 27.0
open-vocabulary-semantic-segmentation-onTTD (TCL)
mIoU: 32.0
open-vocabulary-semantic-segmentation-on-1TTD (TCL)
mIoU: 37.4
open-vocabulary-semantic-segmentation-on-1TTD (MaskCLIP)
mIoU: 31.0
open-vocabulary-semantic-segmentation-on-2TTD (MaskCLIP)
mIoU: 12.7
open-vocabulary-semantic-segmentation-on-2TTD (TCL)
mIoU: 17.0
open-vocabulary-semantic-segmentation-on-cocoTTD (TCL)
mIoU: 23.7
open-vocabulary-semantic-segmentation-on-cocoTTD (MaskCLIP)
mIoU: 19.4
semantic-segmentation-on-cc3m-tagmaskTTD (TCL)
mIoU: 65.5
semantic-segmentation-on-cc3m-tagmaskTTD (MaskCLIP)
mIoU: 50.2
unsupervised-semantic-segmentation-with-10TTD (TCL)
mIoU: 37.4
unsupervised-semantic-segmentation-with-10TTD (MaskCLIP)
mIoU: 26.5
unsupervised-semantic-segmentation-with-11TTD (TCL)
mIoU: 61.1
unsupervised-semantic-segmentation-with-11TTD (MaskCLIP)
mIoU: 43.1
unsupervised-semantic-segmentation-with-3TTD (MaskCLIP)
mIoU: 32.0
unsupervised-semantic-segmentation-with-3TTD (TCL)
mIoU: 27.0
unsupervised-semantic-segmentation-with-4TTD (TCL)
Mean IoU (val): 17.0
unsupervised-semantic-segmentation-with-4TTD (MaskCLIP)
Mean IoU (val): 12.7
unsupervised-semantic-segmentation-with-8TTD (MaskCLIP)
mIoU: 31.0
unsupervised-semantic-segmentation-with-8TTD (TCL)
mIoU: 37.4
unsupervised-semantic-segmentation-with-9TTD (MaskCLIP)
mIoU: 19.4
unsupervised-semantic-segmentation-with-9TTD (TCL)
mIoU: 23.7

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
TTD:文本-标签自蒸馏增强CLIP中的图像-文本对齐以缓解单标签偏差 | 论文 | HyperAI超神经