4 个月前

基于自监督的音频视觉表示学习与宽松的跨模态同步性

基于自监督的音频视觉表示学习与宽松的跨模态同步性

摘要

我们介绍了CrissCross,这是一种用于学习音视频表示的自监督框架。在该框架中,我们引入了一个新颖的概念,即除了学习模态内的关系和标准的“同步”跨模态关系外,CrissCross还学习“异步”跨模态关系。通过深入研究,我们发现放松音频和视觉模态之间的时间同步性,网络可以学习到强大的泛化表示,这些表示对多种下游任务非常有用。为了预训练我们的解决方案,我们使用了3个不同规模的数据集:Kinetics-Sound、Kinetics400和AudioSet。所学的表示在多个下游任务上进行了评估,包括动作识别、声音分类和动作检索。实验结果表明,在UCF101和HMDB51的动作识别和动作检索任务上,以及ESC50和DCASE的声音分类任务上,CrissCross的表现要么优于当前最先进的自监督方法,要么与之相当。此外,在Kinetics-Sound数据集上预训练时,CrissCross的表现超过了完全监督的预训练方法。项目的代码和预训练模型可在项目网站上获取。

代码仓库

pritamqu/CrissCross
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
audio-classification-on-dcaseCrissCross (Kinetics-400)
PRE-TRAINING DATASET: Kinetics-400
Top-1 Accuracy: 96
audio-classification-on-dcaseCrissCross (AudioSet)
PRE-TRAINING DATASET: AudioSet
Top-1 Accuracy: 97
audio-classification-on-dcaseCrissCross (Kinetics-Sound)
PRE-TRAINING DATASET: Kinetics-Sound
Top-1 Accuracy: 93
self-supervised-action-recognition-on-hmdb51CrissCross (AudioSet)
Frozen: false
Pre-Training Dataset: AudioSet
Top-1 Accuracy: 66.8
self-supervised-action-recognition-on-hmdb51CrissCross (Kinetics400)
Frozen: false
Pre-Training Dataset: Kinetics400
Top-1 Accuracy: 64.7
self-supervised-action-recognition-on-hmdb51CrissCross (Kinetics-Sound)
Frozen: false
Pre-Training Dataset: Kinetics-Sound
Top-1 Accuracy: 60.5
self-supervised-action-recognition-on-ucf101CrissCross (Kinetics400)
3-fold Accuracy: 91.5
Frozen: false
Pre-Training Dataset: Kinetics400
self-supervised-action-recognition-on-ucf101CrissCross (Kinetics-Sound)
3-fold Accuracy: 88.3
Frozen: false
Pre-Training Dataset: Kinetics-Sound
self-supervised-action-recognition-on-ucf101CrissCross (AudioSet)
3-fold Accuracy: 92.4
Frozen: false
Pre-Training Dataset: AudioSet

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于自监督的音频视觉表示学习与宽松的跨模态同步性 | 论文 | HyperAI超神经