3 个月前

视觉Transformer即插即用:少样本无类别计数的一个惊人基线

视觉Transformer即插即用:少样本无类别计数的一个惊人基线

摘要

无类别计数(Class-agnostic Counting, CAC)旨在仅通过少量样本图像(exemplars)作为参考,对查询图像中的目标对象进行计数。传统方法通常采用“先提取特征,再进行匹配”的范式:分别提取查询图像与样本图像的特征,然后通过计算特征相似性完成匹配。在本工作中,我们提出一种更为简化的“提取并匹配”(extract-and-match)策略,特别地,利用视觉Transformer(Vision Transformer, ViT)架构,使特征提取与相似性匹配过程在自注意力(self-attention)机制内部同时完成。我们从自注意力机制的解耦视角揭示了该简化策略的内在原理。由此提出的模型命名为CACViT,其将原本复杂的CAC流程简化为单一的预训练普通ViT模型。为进一步弥补普通ViT在图像缩放与归一化过程中丢失的尺度信息与数量级信息,我们设计了两种有效的尺度与数量级嵌入策略。在FSC147与CARPK两个基准数据集上的大量实验表明,CACViT在计数性能与泛化能力方面均显著优于当前最先进的CAC方法,误差降低达23.60%。结果表明,CACViT为无类别计数任务提供了一个简洁而强大的基准模型。代码将随后公开。

代码仓库

Xu3XiWang/CACViT
官方
pytorch

基准测试

基准方法指标
object-counting-on-fsc147CACViT
MAE(test): 9.13
MAE(val): 10.63
RMSE(test): 48.96
RMSE(val): 37.95

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
视觉Transformer即插即用:少样本无类别计数的一个惊人基线 | 论文 | HyperAI超神经