Referring Expression Segmentation On Refcocog

评估指标

Overall IoU

评测结果

各个模型在此基准测试上的表现结果

		Paper Title	Repository
MLCD-Seg-7B	79.9	Multi-label Cluster Discrimination for Visual Representation Learning
HyperSeg	79.4	HyperSeg: Towards Universal Visual Segmentation with Large Language Model
UniLSeg-100	79.27	Universal Segmentation at Arbitrary Granularity with Language Instruction
UniLSeg-20	78.41	Universal Segmentation at Arbitrary Granularity with Language Instruction
EVF-SAM	76.8	EVF-SAM: Early Vision-Language Fusion for Text-Prompted Segment Anything Model
DETRIS	74.6	Densely Connected Parameter-Efficient Tuning for Referring Image Segmentation
C3VG	74.43	Multi-task Visual Grounding with Coarse-to-Fine Consistency Constraints
GROUNDHOG	74.1	GROUNDHOG: Grounding Large Language Models to Holistic Segmentation	-
GLEE-Pro	72.9	General Object Foundation Model for Images and Videos at Scale
SafaRi-B	70.48	SafaRi:Adaptive Sequence Transformer for Weakly Supervised Referring Expression Segmentation	-
PolyFormer-L	69.2	PolyFormer: Referring Image Segmentation as Sequential Polygon Generation
MaskRIS (Swin-B, combined DB)	69.12	MaskRIS: Semantic Distortion-aware Data Augmentation for Referring Image Segmentation
PolyFormer-B	67.76	PolyFormer: Referring Image Segmentation as Sequential Polygon Generation
MaskRIS (Swin-B)	65.55	MaskRIS: Semantic Distortion-aware Data Augmentation for Referring Image Segmentation
MagNet	65.36	Mask Grounding for Referring Image Segmentation
X-Decoder (Davit-d5)	64.6	Generalized Decoding for Pixel, Image, and Language
VLT (Swin-B)	63.49	VLT: Vision-Language Transformer and Query Generation for Referring Segmentation
LAVT	61.24	LAVT: Language-Aware Vision Transformer for Referring Image Segmentation
VLT (Darknet53)	52.99	Vision-Language Transformer and Query Generation for Referring Segmentation
SHNet	49.90	Comprehensive Multi-Modal Interactions for Referring Image Segmentation

0 of 21 row(s) selected.