3 个月前

DUET:用于对比零样本学习的跨模态语义对齐

DUET:用于对比零样本学习的跨模态语义对齐

摘要

零样本学习(Zero-shot Learning, ZSL)旨在预测在训练过程中从未出现过的类别。在零样本图像分类中,语义信息最为有效且应用广泛的是属性(attributes),即对类别级视觉特征的标注。然而,现有方法往往难以区分图像之间细微的视觉差异,这不仅源于细粒度标注的不足,还受到属性不平衡与共现问题的制约。本文提出一种基于Transformer的端到端零样本学习方法——DUET,该方法通过自监督多模态学习范式,融合预训练语言模型(Pre-trained Language Models, PLMs)中的潜在语义知识。具体而言,我们:(1)设计了一种跨模态语义对齐网络,以探究模型从图像中解耦语义属性的能力;(2)引入基于属性级别的对比学习策略,进一步增强模型在应对属性共现与不平衡问题时对细粒度视觉特征的区分能力;(3)提出一种多任务学习机制,以协同优化多种模态目标。实验结果表明,DUET在三个标准零样本学习基准以及一个基于知识图谱的零样本学习基准上均取得了当前最优性能。其各组件有效且模型预测具有良好的可解释性。

代码仓库

zjukg/DUET
官方
pytorch
GitHub 中提及
zjukg/structure-clip
pytorch
GitHub 中提及

基准测试

基准方法指标
zero-shot-learning-on-awa2DUET (Ours)
Accuracy Seen: 84.7
Accuracy Unseen: 63.7
H: 72.7
average top-1 classification accuracy: 69.9
zero-shot-learning-on-cub-200-2011DUET
Accuracy Seen: 72.8
Accuracy Unseen: 62.9
H: 67.5
average top-1 classification accuracy: 72.3
zero-shot-learning-on-sun-attributeDUET (Ours)
Accuracy Seen: 45.8
Accuracy Unseen: 45.7
H: 45.8
average top-1 classification accuracy: 64.4

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
DUET:用于对比零样本学习的跨模态语义对齐 | 论文 | HyperAI超神经