6 个月前

多模态表征

计算机视觉

Shi Pu Kaili Zhao Mao Zheng

摘要

现有大多数方法通过在已见类别内对齐视觉-语义表示来解决零样本视频分类问题，但这种策略限制了模型在未见类别上的泛化能力。为提升模型的泛化性能，本文提出一种端到端框架，旨在同时保持已见类别与未见类别表示的对齐性与均匀性。具体而言，我们设计了一种监督对比损失函数，能够同步实现视觉-语义特征的对齐（alignment）以及促进学习到的特征分布趋于均匀（uniformity）。与现有仅关注对齐的方法不同，本文引入均匀性约束，以保留现有特征的最大信息量，从而提高未观测特征落在已观测数据邻域的概率。此外，我们提出一种类别生成器，通过插值与外推已见类别的特征，合成未见类别的特征表示。同时，本文引入两个量化指标——接近度（closeness）与离散度（dispersion），分别用于度量对齐性与均匀性，作为衡量模型泛化能力的新标准。实验结果表明，所提方法在UCF101和HMDB51数据集上分别相对于当前最先进方法实现了28.1%和27.0%的相对性能提升。代码已公开。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

多模态表征

计算机视觉

Shi Pu Kaili Zhao Mao Zheng

摘要

现有大多数方法通过在已见类别内对齐视觉-语义表示来解决零样本视频分类问题，但这种策略限制了模型在未见类别上的泛化能力。为提升模型的泛化性能，本文提出一种端到端框架，旨在同时保持已见类别与未见类别表示的对齐性与均匀性。具体而言，我们设计了一种监督对比损失函数，能够同步实现视觉-语义特征的对齐（alignment）以及促进学习到的特征分布趋于均匀（uniformity）。与现有仅关注对齐的方法不同，本文引入均匀性约束，以保留现有特征的最大信息量，从而提高未观测特征落在已观测数据邻域的概率。此外，我们提出一种类别生成器，通过插值与外推已见类别的特征，合成未见类别的特征表示。同时，本文引入两个量化指标——接近度（closeness）与离散度（dispersion），分别用于度量对齐性与均匀性，作为衡量模型泛化能力的新标准。实验结果表明，所提方法在UCF101和HMDB51数据集上分别相对于当前最先进方法实现了28.1%和27.0%的相对性能提升。代码已公开。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供