3 个月前

深入探究多模态提示在细粒度视觉分类中的应用

深入探究多模态提示在细粒度视觉分类中的应用

摘要

细粒度视觉分类(Fine-grained Visual Classification, FGVC)旨在对某一大类别的内部细分子类进行精确区分,由于类别间差异细微而类内变化较大,该任务面临显著挑战。然而,现有方法主要聚焦于单一模态的视觉特征建模。近年来,预训练的视觉-语言模型在多种高层视觉任务中展现出卓越性能,但其在FGVC任务中的适用性仍不明确。本文旨在充分挖掘跨模态描述的潜力,以应对FGVC挑战,提出一种基于对比语言-图像预训练模型(CLIP)的新型多模态提示方法,命名为MP-FGVC。该方法包含两个核心组件:多模态提示机制与多模态适配机制。前者引入子类别特定视觉提示(Subcategory-specific Vision Prompt, SsVP)与差异感知文本提示(Discrepancy-aware Text Prompt, DaTP),分别从视觉与语言两个维度显式捕捉子类别间的细微差异;后者通过一个视觉-语言融合模块(Vision-Language Fusion Module, VLFM),将视觉与文本提示映射至统一语义空间,实现跨模态协同推理,进一步提升分类性能。此外,为充分挖掘预训练CLIP模型的潜力并加速模型在FGVC任务上的高效适配,我们设计了一种两阶段优化策略。在四个主流FGVC数据集上的大量实验结果表明,所提出的MP-FGVC方法在细粒度分类任务中具有显著有效性与优越性能。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
深入探究多模态提示在细粒度视觉分类中的应用 | 论文 | HyperAI超神经