3 个月前

通过从网络规模的图文数据中检索以提升图像识别性能

通过从网络规模的图文数据中检索以提升图像识别性能

摘要

检索增强模型在自然语言处理(NLP)任务中取得显著成功后,正日益受到计算机视觉领域的关注。其核心目标是通过从外部记忆库中检索与视觉输入相似的样本,来增强模型的识别能力。在本工作中,我们提出一种基于注意力机制的记忆模块,该模块能够自动学习记忆库中每个检索样本的重要性。与现有方法相比,我们的方法有效抑制了无关检索样本的干扰,仅保留对当前查询任务具有实际帮助的样本。此外,我们系统地研究了构建记忆数据集的多种策略。实验结果表明,使用包含10亿对图像-文本数据的大规模记忆数据集能显著提升性能,并验证了不同记忆表示方式的有效性。我们在三个不同的分类任务上评估了所提方法:长尾识别、含噪声标签学习以及细粒度分类。实验结果表明,该方法在ImageNet-LT、Places-LT和Webvision数据集上均取得了当前最优的分类准确率,达到了领先水平。

基准测试

基准方法指标
image-classification-on-webvision-1000MAM (ViT-B/16)
Top-1 Accuracy: 83.6
long-tail-learning-on-imagenet-ltMAM (ViT-B/16)
Top-1 Accuracy: 82.3
long-tail-learning-on-places-ltMAM (ViT-B/16)
Top-1 Accuracy: 51.4

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
通过从网络规模的图文数据中检索以提升图像识别性能 | 论文 | HyperAI超神经