4 个月前

基于Transformer的隐式空间校准实现弱监督目标定位

基于Transformer的隐式空间校准实现弱监督目标定位

摘要

弱监督目标定位(WSOL)旨在仅使用图像级标签来定位目标,由于其在实际应用中较低的标注成本而受到广泛关注。近期的研究利用视觉Transformer中的自注意力机制对长距离依赖进行重新激活语义区域,以避免传统类别激活映射(CAM)中的部分激活问题。然而,Transformer中的长距离建模忽略了对象固有的空间一致性,通常会导致语义感知区域扩散到远离对象边界的地方,从而使定位结果显著偏大或偏小。为了解决这一问题,我们引入了一种简单而有效的空间校准模块(SCM),该模块将补丁标记的语义相似性和它们的空间关系整合到一个统一的扩散模型中。具体而言,我们引入了一个可学习的参数,用于动态调整语义相关性和空间上下文强度,以实现有效的信息传播。在实际应用中,SCM被设计为Transformer的一个外部模块,并且可以在推理阶段移除以降低计算成本。通过训练阶段的优化,对象敏感的定位能力被隐式地嵌入到Transformer编码器中。这使得生成的注意力图能够捕捉更清晰的对象边界并过滤掉与对象无关的背景区域。广泛的实验结果证明了所提出方法的有效性,在CUB-200和ImageNet-1K基准测试中显著优于其同类方法TS-CAM。代码可在https://github.com/164140757/SCM 获取。

代码仓库

164140757/scm
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
weakly-supervised-object-localization-on-2Deit-S
GT-known localization accuracy: 68.8
Top-1 Localization Accuracy: 56.1
average top-1 classification accuracy: 76.7
weakly-supervised-object-localization-on-cub-2Deit-S
GT-known localization accuracy: 96.6
Top-1 Localization Accuracy: 76.4
average top-1 classification accuracy: 78.5

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于Transformer的隐式空间校准实现弱监督目标定位 | 论文 | HyperAI超神经