6 个月前

摘要

在计算机视觉任务中，聚焦于图像中相关区域的能力对于提升模型性能至关重要，尤其是在关键特征尺寸小、细微或空间分布分散的情况下。传统的卷积神经网络（CNN）通常对图像的所有区域一视同仁，这可能导致特征提取效率低下。为解决这一挑战，我提出了一种新型注意力机制——Vision Eagle Attention，该机制通过卷积空间注意力增强视觉特征的提取能力。该模型利用卷积操作捕捉局部空间特征，并生成一个注意力图，以有选择性地强化图像中最具有信息量的区域。这种注意力机制使模型能够专注于判别性特征，同时抑制无关背景信息的干扰。我将Vision Eagle Attention集成至轻量级ResNet-18架构中，实验表明，该组合能够构建出高效且强大的模型。我在三个广泛使用的基准数据集——FashionMNIST、Intel图像分类数据集和OracleMNIST上对所提模型进行了评估，主要关注图像分类任务。实验结果表明，该方法显著提升了分类准确率。此外，该方法具有良好的可扩展性，未来可推广至其他视觉任务，如目标检测、图像分割和视觉跟踪，为多种基于视觉的应用提供一种计算高效的解决方案。代码已开源，可通过以下链接获取：https://github.com/MahmudulHasan11085/Vision-Eagle-Attention.git

源 PDF