4 个月前

通过跨模态音频-视频聚类实现自监督学习

通过跨模态音频-视频聚类实现自监督学习

摘要

视觉和听觉模态高度相关,但它们包含不同的信息。这种强相关性使得可以从一个模态中以较高的准确性预测另一个模态的语义成为可能。它们之间的内在差异使得跨模态预测相比单模态内的学习,成为自监督学习视频和音频表示的一个潜在更有价值的预训练任务。基于这一直觉,我们提出了一种新的自监督方法——跨模态深度聚类(Cross-Modal Deep Clustering, XDC),该方法利用在一个模态(例如听觉)中的无监督聚类作为另一个模态(例如视觉)的监督信号。这种跨模态的监督有助于XDC利用两个模态之间的语义相关性和差异性。我们的实验表明,XDC在单模态聚类和其他多模态变体中表现优异。XDC在多个视频和音频基准测试中达到了自监督方法的最先进水平。尤为重要的是,我们的视频模型在大规模未标注数据上进行预训练后,在HMDB51和UCF101数据集上的动作识别任务中显著优于在ImageNet和Kinetics数据集上进行完全监督预训练的相同模型。据我们所知,XDC是首个在同一架构下,在动作识别任务中超越大规模完全监督预训练的自监督学习方法。

代码仓库

HumamAlwassel/XDC
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
audio-classification-on-dcaseXDC
PRE-TRAINING DATASET: IG-Random
Top-1 Accuracy: 95
audio-classification-on-dcaseXDC
PRE-TRAINING DATASET: AudioSet
Top-1 Accuracy: 95
audio-classification-on-esc-50XDC
PRE-TRAINING DATASET: AudioSet
Top-1 Accuracy: 84.8
audio-classification-on-esc-50XDC
PRE-TRAINING DATASET: IG-Random
Top-1 Accuracy: 85.4
self-supervised-action-recognition-on-hmdb51XDC
Frozen: false
Pre-Training Dataset: IG-Random
Top-1 Accuracy: 66.5
self-supervised-action-recognition-on-hmdb51XDC
Frozen: false
Pre-Training Dataset: Kinetics400
Top-1 Accuracy: 52.6
self-supervised-action-recognition-on-hmdb51XDC
Frozen: false
Pre-Training Dataset: AudioSet
Top-1 Accuracy: 63.7
self-supervised-action-recognition-on-hmdb51XDC
Frozen: false
Pre-Training Dataset: IG-Kinetics
Top-1 Accuracy: 68.9
self-supervised-action-recognition-on-hmdb51-1XDC
Top-1 Accuracy: 68.9
self-supervised-action-recognition-on-ucf101-1XDC
3-fold Accuracy: 95.5

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
通过跨模态音频-视频聚类实现自监督学习 | 论文 | HyperAI超神经