Zero Shot Segmentation On Ade20K Training

mIoU

评测结果

各个模型在此基准测试上的表现结果

		Paper Title
COSMOS ViT-B/16	17.7	COSMOS: Cross-Modality Self-Distillation for Vision Language Pre-training
GEM (MetaCLIP)	17.1	Grounding Everything: Emerging Localization Properties in Vision-Language Transformers
GEM (CLIP)	15.7	Grounding Everything: Emerging Localization Properties in Vision-Language Transformers
CLIPSurgery	12.9	A Closer Look at the Explainability of Contrastive Language-Image Pre-training
MaskCLIP	10.2	Extract Free Dense Labels from CLIP

0 of 5 row(s) selected.