3 个月前

视觉鹰眼注意力:推动图像分类发展的全新视角

视觉鹰眼注意力:推动图像分类发展的全新视角

摘要

在计算机视觉任务中,聚焦于图像中相关区域的能力对于提升模型性能至关重要,尤其是在关键特征尺寸小、细微或空间分布分散的情况下。传统的卷积神经网络(CNN)通常对图像的所有区域一视同仁,这可能导致特征提取效率低下。为解决这一挑战,我提出了一种新型注意力机制——Vision Eagle Attention,该机制通过卷积空间注意力增强视觉特征的提取能力。该模型利用卷积操作捕捉局部空间特征,并生成一个注意力图,以有选择性地强化图像中最具有信息量的区域。这种注意力机制使模型能够专注于判别性特征,同时抑制无关背景信息的干扰。我将Vision Eagle Attention集成至轻量级ResNet-18架构中,实验表明,该组合能够构建出高效且强大的模型。我在三个广泛使用的基准数据集——FashionMNIST、Intel图像分类数据集和OracleMNIST上对所提模型进行了评估,主要关注图像分类任务。实验结果表明,该方法显著提升了分类准确率。此外,该方法具有良好的可扩展性,未来可推广至其他视觉任务,如目标检测、图像分割和视觉跟踪,为多种基于视觉的应用提供一种计算高效的解决方案。代码已开源,可通过以下链接获取:https://github.com/MahmudulHasan11085/Vision-Eagle-Attention.git

基准测试

基准方法指标
image-classification-on-fashion-mnistResNet-18 + Vision Eagle Attention
Accuracy: 93.30
Percentage error: 6.70
image-classification-on-fashion-mnistResNet-18
Accuracy: 92.28
Percentage error: 7.72
image-classification-on-intel-imageResNet-18
Accuracy: 90.93
image-classification-on-intel-imageResNet-18 + Vision Eagle Attention
Accuracy: 92.43
image-classification-on-oracle-mnistResNet-18
Accuracy: 96.77
image-classification-on-oracle-mnistResNet-18 + Vision Eagle Attention
Accuracy: 97.20

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
视觉鹰眼注意力:推动图像分类发展的全新视角 | 论文 | HyperAI超神经