4 个月前

OmniVec:通过跨模态共享学习鲁棒表示

OmniVec:通过跨模态共享学习鲁棒表示

摘要

大多数基于学习的方法的研究都集中在为特定任务设计和训练网络上。然而,许多跨模态的学习任务具有共性,可以通过一个联合框架来解决。本文提出了一种朝此方向发展的方法,即使用统一架构在多个模态中学习多个任务。所提出的网络由任务特定编码器、中间的共享主干以及任务特定预测头组成。我们首先通过自监督掩码训练进行预训练,然后依次对不同任务进行训练。我们在所有主要模态(如视觉、音频、文本和3D)上对该网络进行了训练,并在22个多样且具有挑战性的公开基准数据集上报告了实验结果。实验证明,使用跨模态的联合网络进行训练可以实现有意义的信息共享,从而使我们在大多数基准数据集上取得了最先进的结果。此外,我们还展示了该训练网络在跨模态任务以及未见过的数据集和任务上的泛化能力。

基准测试

基准方法指标
3d-point-cloud-classification-on-modelnet40-cOmniVec
Error Rate: 0.156
3d-point-cloud-classification-on-scanobjectnnOmniVec
Overall Accuracy: 96.1
action-classification-on-kinetics-400OmniVec
Acc@1: 91.1
action-classification-on-mitOmniVec
Top 1 Accuracy: 49.8
action-classification-on-moments-in-time-2OmniVec
Top 1 Accuracy: 49.8
action-recognition-in-videos-on-ucf101OmniVec
3-fold Accuracy: 99.6
audio-classification-on-audiosetOmniVec
Test mAP: 0.548
audio-classification-on-esc-50OmniVec
Accuracy (5-fold): 98.4
PRE-TRAINING DATASET: Multiple
Top-1 Accuracy: 98.4
fine-grained-image-classification-on-oxford-1OmniVec
Accuracy: 99.2
image-classification-on-inaturalist-2018OmniVec
Top-1 Accuracy: 93.8
image-classification-on-places365OmniVec(ViT)
Top 1 Accuracy: 63.5
semantic-segmentation-on-nyu-depth-v2OmniVec
Mean IoU: 60.8
semantic-segmentation-on-s3dis-area5OmniVec
mIoU: 75.9
text-summarization-on-dialogsumOmniVec
BertScore: 71.91
Rouge1: 46.91
Rouge2: 21.22
RougeL: 40.19
video-retrieval-on-msr-vtt-1kaOmniVec
text-to-video R@10: 89.4
video-retrieval-on-msr-vtt-1kaOmniVec (pretrained)
text-to-video R@10: 78.6
video-retrieval-on-youcook2OmniVec (pretrained)
text-to-video R@10: 64.2
video-retrieval-on-youcook2OmniVec
text-to-video R@10: 70.8

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
OmniVec:通过跨模态共享学习鲁棒表示 | 论文 | HyperAI超神经