6 个月前

多模态表征

计算机视觉

Fang Peng Xiaoshan Yang Linhui Xiao Yaowei Wang Changsheng Xu

摘要

尽管少样本学习领域已取得显著进展，但现有大多数少样本图像分类方法仍依赖于在大量基础类别样本上进行监督预训练，这限制了其在真实应用场景中的泛化能力。近年来，大规模视觉-语言预训练模型（Vision-Language Pre-trained Models, VLPs）在少样本学习中受到越来越多关注，因其能够利用网络上易于获取的文本信息，为可迁移的视觉表征学习提供一种新范式。然而，VLPs可能忽视那些难以用语言描述、但对区分不同图像至关重要的细节视觉信息。为解决上述问题，本文提出一种新框架——语义引导的视觉适配（Semantic-guided Visual Adapting, SgVA），该框架通过综合运用隐式知识蒸馏、面向视觉的对比损失以及跨模态对比损失，有效拓展视觉-语言预训练模型，生成具有判别性的适配视觉特征。其中，隐式知识蒸馏旨在将细粒度的跨模态知识传递至视觉适配器，以指导其更新。在13个数据集上的实验结果表明，所生成的适配视觉特征能够与跨模态特征良好互补，显著提升少样本图像分类性能。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

多模态表征

计算机视觉

Fang Peng Xiaoshan Yang Linhui Xiao Yaowei Wang Changsheng Xu

摘要

尽管少样本学习领域已取得显著进展，但现有大多数少样本图像分类方法仍依赖于在大量基础类别样本上进行监督预训练，这限制了其在真实应用场景中的泛化能力。近年来，大规模视觉-语言预训练模型（Vision-Language Pre-trained Models, VLPs）在少样本学习中受到越来越多关注，因其能够利用网络上易于获取的文本信息，为可迁移的视觉表征学习提供一种新范式。然而，VLPs可能忽视那些难以用语言描述、但对区分不同图像至关重要的细节视觉信息。为解决上述问题，本文提出一种新框架——语义引导的视觉适配（Semantic-guided Visual Adapting, SgVA），该框架通过综合运用隐式知识蒸馏、面向视觉的对比损失以及跨模态对比损失，有效拓展视觉-语言预训练模型，生成具有判别性的适配视觉特征。其中，隐式知识蒸馏旨在将细粒度的跨模态知识传递至视觉适配器，以指导其更新。在13个数据集上的实验结果表明，所生成的适配视觉特征能够与跨模态特征良好互补，显著提升少样本图像分类性能。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

SgVA-CLIP：面向少样本图像分类的语义引导视觉适配视觉-语言模型 | 论文 | HyperAI超神经