6 个月前

多任务学习

多模态表征

Rohit Girdhar Mannat Singh Nikhila Ravi Laurens van der Maaten Armand Joulin Ishan Misra

摘要

先前的研究通常将不同的视觉模态（如图像、视频和单视角3D数据）分别独立处理，并为每种模态设计专用的识别架构。与此不同，本文提出了一种统一的模型——Omnivore，该模型仅使用完全相同的模型参数，即可在图像、视频以及单视角3D数据的分类任务中均表现出色。Omnivore模型充分利用了基于Transformer架构的灵活性，并在来自不同模态的分类任务上进行联合训练。该模型训练过程简单，仅需使用现成的标准数据集，且在相同规模下，其性能达到或优于各类特定模态的专用模型。单一的Omnivore模型在ImageNet上达到86.0%的准确率，在Kinetics上达到84.1%，在SUN RGB-D数据集上达到67.1%。经过微调后，我们的模型在多种视觉任务上超越了现有方法，并展现出良好的跨模态泛化能力。Omnivore共享的视觉表征机制使得跨模态识别成为可能，且无需依赖模态之间的对应关系。我们希望本研究的结果能够激励更多研究者探索将多种视觉模态统一建模的新路径。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

多任务学习

多模态表征

Rohit Girdhar Mannat Singh Nikhila Ravi Laurens van der Maaten Armand Joulin Ishan Misra

摘要

先前的研究通常将不同的视觉模态（如图像、视频和单视角3D数据）分别独立处理，并为每种模态设计专用的识别架构。与此不同，本文提出了一种统一的模型——Omnivore，该模型仅使用完全相同的模型参数，即可在图像、视频以及单视角3D数据的分类任务中均表现出色。Omnivore模型充分利用了基于Transformer架构的灵活性，并在来自不同模态的分类任务上进行联合训练。该模型训练过程简单，仅需使用现成的标准数据集，且在相同规模下，其性能达到或优于各类特定模态的专用模型。单一的Omnivore模型在ImageNet上达到86.0%的准确率，在Kinetics上达到84.1%，在SUN RGB-D数据集上达到67.1%。经过微调后，我们的模型在多种视觉任务上超越了现有方法，并展现出良好的跨模态泛化能力。Omnivore共享的视觉表征机制使得跨模态识别成为可能，且无需依赖模态之间的对应关系。我们希望本研究的结果能够激励更多研究者探索将多种视觉模态统一建模的新路径。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供