8 个月前

多模态表征

Haoxing Chen Yaohui Li Yan Hong Zizheng Huang Zhuoer Xu Zhangxuan Gu Jun Lan Huijia Zhu Weiqiang Wang

摘要

视听零样本学习旨在基于配对的视听序列识别未见过的类别。近期的方法主要集中在学习与类别名称对齐的多模态特征，以增强对未见过类别的泛化能力。然而，这些方法忽略了类别名称中的模糊事件概念，并可能不可避免地引入复杂的网络结构和难以训练的目标。在本文中，我们介绍了一种简单而高效的框架，称为知识增强型视听学习（KDA），该框架通过利用外部知识库帮助模型更有效地学习新的事件内容。具体而言，我们首先提出利用大型语言模型（LLMs）中的知识生成大量描述性句子，这些句子包含事件类别的关键区分视听特征，有助于更好地理解未见过的类别。此外，我们还提出了一种知识感知自适应边界损失函数，以帮助区分相似事件，进一步提高对未见过类别的泛化能力。广泛的实验结果表明，我们提出的KDA在三个流行的视听零样本学习数据集上优于现有最先进方法。我们的代码将在以下网址提供：\url{https://github.com/chenhaoxing/KDA}。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

多模态表征

Haoxing Chen Yaohui Li Yan Hong Zizheng Huang Zhuoer Xu Zhangxuan Gu Jun Lan Huijia Zhu Weiqiang Wang

摘要

视听零样本学习旨在基于配对的视听序列识别未见过的类别。近期的方法主要集中在学习与类别名称对齐的多模态特征，以增强对未见过类别的泛化能力。然而，这些方法忽略了类别名称中的模糊事件概念，并可能不可避免地引入复杂的网络结构和难以训练的目标。在本文中，我们介绍了一种简单而高效的框架，称为知识增强型视听学习（KDA），该框架通过利用外部知识库帮助模型更有效地学习新的事件内容。具体而言，我们首先提出利用大型语言模型（LLMs）中的知识生成大量描述性句子，这些句子包含事件类别的关键区分视听特征，有助于更好地理解未见过的类别。此外，我们还提出了一种知识感知自适应边界损失函数，以帮助区分相似事件，进一步提高对未见过类别的泛化能力。广泛的实验结果表明，我们提出的KDA在三个流行的视听零样本学习数据集上优于现有最先进方法。我们的代码将在以下网址提供：\url{https://github.com/chenhaoxing/KDA}。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供