6 个月前

计算机视觉

多任务学习

多模态表征

计算机视觉

Zhuo Chen Yufeng Huang Jiaoyan Chen Yuxia Geng Wen Zhang Yin Fang Jeff Z. Pan Huajun Chen

摘要

零样本学习（Zero-shot Learning, ZSL）旨在预测在训练过程中从未出现过的类别。在零样本图像分类中，语义信息最为有效且应用广泛的是属性（attributes），即对类别级视觉特征的标注。然而，现有方法往往难以区分图像之间细微的视觉差异，这不仅源于细粒度标注的不足，还受到属性不平衡与共现问题的制约。本文提出一种基于Transformer的端到端零样本学习方法——DUET，该方法通过自监督多模态学习范式，融合预训练语言模型（Pre-trained Language Models, PLMs）中的潜在语义知识。具体而言，我们：（1）设计了一种跨模态语义对齐网络，以探究模型从图像中解耦语义属性的能力；（2）引入基于属性级别的对比学习策略，进一步增强模型在应对属性共现与不平衡问题时对细粒度视觉特征的区分能力；（3）提出一种多任务学习机制，以协同优化多种模态目标。实验结果表明，DUET在三个标准零样本学习基准以及一个基于知识图谱的零样本学习基准上均取得了当前最优性能。其各组件有效且模型预测具有良好的可解释性。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

计算机视觉

多任务学习

多模态表征

计算机视觉

Zhuo Chen Yufeng Huang Jiaoyan Chen Yuxia Geng Wen Zhang Yin Fang Jeff Z. Pan Huajun Chen

摘要

零样本学习（Zero-shot Learning, ZSL）旨在预测在训练过程中从未出现过的类别。在零样本图像分类中，语义信息最为有效且应用广泛的是属性（attributes），即对类别级视觉特征的标注。然而，现有方法往往难以区分图像之间细微的视觉差异，这不仅源于细粒度标注的不足，还受到属性不平衡与共现问题的制约。本文提出一种基于Transformer的端到端零样本学习方法——DUET，该方法通过自监督多模态学习范式，融合预训练语言模型（Pre-trained Language Models, PLMs）中的潜在语义知识。具体而言，我们：（1）设计了一种跨模态语义对齐网络，以探究模型从图像中解耦语义属性的能力；（2）引入基于属性级别的对比学习策略，进一步增强模型在应对属性共现与不平衡问题时对细粒度视觉特征的区分能力；（3）提出一种多任务学习机制，以协同优化多种模态目标。实验结果表明，DUET在三个标准零样本学习基准以及一个基于知识图谱的零样本学习基准上均取得了当前最优性能。其各组件有效且模型预测具有良好的可解释性。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

DUET：用于对比零样本学习的跨模态语义对齐 | 论文 | HyperAI超神经