8 个月前

计算机视觉

多模态表征

计算机视觉

Shichao Xu; Yikang Li; Jenhao Hsiao; Chiuman Ho; Zhu Qi

摘要

在计算机视觉中，多标签识别是一项具有许多实际应用的重要任务，但对先前未见过的标签进行分类仍然是一个重大挑战。本文提出了一种新颖的算法——对齐双模态分类器（Aligned Dual moDality ClaSsifier, ADDS），该算法包括一个视觉特征与文本特征之间进行对齐的双模态解码器（Dual-Modal decoder, DM-decoder），用于开放词汇表多标签分类任务。随后，我们设计了一种简单而有效的方法——金字塔前向传播（Pyramid-Forwarding），以提高高分辨率输入的性能。此外，选择性语言监督被应用于进一步提升模型性能。我们在多个标准基准数据集（NUS-WIDE、ImageNet-1k、ImageNet-21k 和 MS-COCO）上进行了广泛的实验，结果表明我们的方法显著优于以往的方法，并在开放词汇表多标签分类、传统多标签分类以及一种极端情况——单标签到多标签分类中提供了最先进的性能。在这种极端情况下，训练于单标签数据集（如 ImageNet-1k 和 ImageNet-21k）的模型在多标签数据集（如 MS-COCO 和 NUS-WIDE）上进行测试。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

计算机视觉

多模态表征

计算机视觉

Shichao Xu; Yikang Li; Jenhao Hsiao; Chiuman Ho; Zhu Qi

摘要

在计算机视觉中，多标签识别是一项具有许多实际应用的重要任务，但对先前未见过的标签进行分类仍然是一个重大挑战。本文提出了一种新颖的算法——对齐双模态分类器（Aligned Dual moDality ClaSsifier, ADDS），该算法包括一个视觉特征与文本特征之间进行对齐的双模态解码器（Dual-Modal decoder, DM-decoder），用于开放词汇表多标签分类任务。随后，我们设计了一种简单而有效的方法——金字塔前向传播（Pyramid-Forwarding），以提高高分辨率输入的性能。此外，选择性语言监督被应用于进一步提升模型性能。我们在多个标准基准数据集（NUS-WIDE、ImageNet-1k、ImageNet-21k 和 MS-COCO）上进行了广泛的实验，结果表明我们的方法显著优于以往的方法，并在开放词汇表多标签分类、传统多标签分类以及一种极端情况——单标签到多标签分类中提供了最先进的性能。在这种极端情况下，训练于单标签数据集（如 ImageNet-1k 和 ImageNet-21k）的模型在多标签数据集（如 MS-COCO 和 NUS-WIDE）上进行测试。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

基于对齐的视觉-文本特征的开放词汇多标签分类与双模解码器 | 论文 | HyperAI超神经