4 个月前

GroupViT:语义分割从文本监督中涌现

GroupViT:语义分割从文本监督中涌现

摘要

分组和识别是视觉场景理解的重要组成部分,例如在目标检测和语义分割中起着关键作用。通过端到端的深度学习系统,图像区域的分组通常通过来自像素级识别标签的自上而下的监督隐式地实现。然而,在本文中,我们提出将分组机制重新引入深度网络,这使得仅通过文本监督即可自动形成语义片段。我们提出了一种层次化的分组视觉变换器(GroupViT),该模型不仅超越了常规网格结构表示,还学会了将图像区域逐步分组成任意形状的较大片段。我们通过对比损失函数,在大规模图像-文本数据集上联合训练GroupViT和文本编码器。仅依靠文本监督且无需任何像素级注释,GroupViT学会了将语义区域聚合在一起,并成功以零样本的方式迁移到语义分割任务中,即无需进一步微调。它在PASCAL VOC 2012数据集上实现了52.3%的零样本mIoU精度,在PASCAL Context数据集上实现了22.4%的零样本mIoU精度,并且其性能与需要更高监督水平的最先进迁移学习方法相当。我们的代码已开源,地址为:https://github.com/NVlabs/GroupViT 。

基准测试

基准方法指标
unsupervised-semantic-segmentation-with-10GroupViT (RedCaps)
mIoU: 27.5
unsupervised-semantic-segmentation-with-4GroupViT (RedCaps)
Mean IoU (val): 9.2
unsupervised-semantic-segmentation-with-7GroupViT (RedCaps)
mIoU: 79.7
unsupervised-semantic-segmentation-with-8GroupViT (RedCaps)
mIoU: 23.4
unsupervised-semantic-segmentation-with-9GroupViT
mIoU: 11.1

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
GroupViT:语义分割从文本监督中涌现 | 论文 | HyperAI超神经