ChenHaoxing ; LiYaohui ; HongYan ; HuangZizheng ; XuZhuoer ; GuZhangxuan ; LanJun ; ZhuHuijia ; WangWeiqiang

摘要
视听零样本学习旨在基于配对的视听序列识别未见过的类别。近期的方法主要集中在学习与类别名称对齐的多模态特征,以增强对未见过类别的泛化能力。然而,这些方法忽略了类别名称中的模糊事件概念,并可能不可避免地引入复杂的网络结构和难以训练的目标。在本文中,我们介绍了一种简单而高效的框架,称为知识增强型视听学习(KDA),该框架通过利用外部知识库帮助模型更有效地学习新的事件内容。具体而言,我们首先提出利用大型语言模型(LLMs)中的知识生成大量描述性句子,这些句子包含事件类别的关键区分视听特征,有助于更好地理解未见过的类别。此外,我们还提出了一种知识感知自适应边界损失函数,以帮助区分相似事件,进一步提高对未见过类别的泛化能力。广泛的实验结果表明,我们提出的KDA在三个流行的视听零样本学习数据集上优于现有最先进方法。我们的代码将在以下网址提供:\url{https://github.com/chenhaoxing/KDA}。
代码仓库
chenhaoxing/KDA
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| gzsl-video-classification-on-activitynet-gzsl | KDA | HM: 17.95 ZSL: 11.85 |
| gzsl-video-classification-on-activitynet-gzsl-1 | KDA | HM: 19.67 ZSL: 14.00 |
| gzsl-video-classification-on-ucf-gzsl-cls | KDA | HM: 54.84 ZSL: 52.66 |
| gzsl-video-classification-on-ucf-gzsl-main | KDA | HM: 41.10 ZSL: 28.05 |
| gzsl-video-classification-on-vggsound-gzsl | KDA | HM: 9.78 ZSL: 8.32 |
| gzsl-video-classification-on-vggsound-gzsl-1 | KDA | HM: 10.45 ZSL: 8.43 |