3 个月前

基于语义分组的自监督视觉表征学习

基于语义分组的自监督视觉表征学习

摘要

在本文中,我们致力于从无标签的场景中心数据中学习视觉表征。现有方法已证明了利用场景中心数据内部复杂结构的潜力,但通常依赖于手工设计的“物体性先验”(objectness priors)或特定的预训练任务来构建学习框架,这可能损害模型的泛化能力。为此,我们提出了一种基于数据驱动语义槽的对比学习方法,即SlotCon,用于联合实现语义分组与表征学习。该方法通过将像素分配给一组可学习的原型(prototypes)来完成语义分组,这些原型能够通过特征上的注意力池化机制自适应地适应每个样本,并动态生成新的语义槽。基于所学习到的数据相关语义槽,我们引入对比学习目标进行表征学习,该目标不仅增强了特征的可区分性,还反过来促进语义一致像素的聚集。与以往方法相比,我们的方法通过联合优化语义分组与对比学习这两个耦合目标,避免了对人工设计先验的依赖,能够从场景中心图像中有效学习到对象或组级别的表征。实验结果表明,该方法能有效将复杂场景分解为语义一致的组别,从而显著提升下游任务的性能,包括目标检测、实例分割和语义分割。代码已公开,地址为:https://github.com/CVMI-Lab/SlotCon。

代码仓库

CVMI-Lab/SlotCon
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
unsupervised-semantic-segmentation-on-coco-7Ours (SlotCon)
Accuracy: 42.36

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于语义分组的自监督视觉表征学习 | 论文 | HyperAI超神经