3 个月前

基于生成对抗网络与面部关键点检测的细粒度图像分类

基于生成对抗网络与面部关键点检测的细粒度图像分类

摘要

细粒度分类任务仍具有挑战性,因其需要识别类别间复杂的局部差异。图像中物体在姿态、尺度和位置上的多样性进一步加剧了该问题的难度。尽管近期的视觉Transformer(Vision Transformer, ViT)模型已取得优异性能,但其通常依赖大量输入数据。为应对这一挑战,我们充分利用基于生成对抗网络(GAN)的数据增强技术,生成额外的训练样本。本实验选用Oxford-IIIT Pets数据集,该数据集包含37种猫狗品种,涵盖尺度、姿态和光照条件的显著变化,显著提升了分类任务的难度。此外,我们对最新的生成对抗网络模型StyleGAN2-ADA进行了优化,使其在生成更逼真图像的同时,有效防止对训练集的过拟合。具体方法是:训练一个定制化的MobileNetV2模型以预测动物面部关键点,随后根据关键点对图像进行裁剪。最后,我们将生成的合成图像与原始数据集相结合,并在不同规模的训练子集上,将所提出的方法与标准GAN数据增强以及无数据增强的基线方法进行对比。通过在近期的视觉Transformer(ViT)模型上评估细粒度图像分类的准确率,验证了本方法的有效性。

代码仓库

mahdi-darvish/gans-augmented-pet-classifier
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
fine-grained-image-classification-on-oxford-1ViT R26 + S/32 ( Augmented)
Accuracy: 96.28

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于生成对抗网络与面部关键点检测的细粒度图像分类 | 论文 | HyperAI超神经