HyperAIHyperAI

Command Palette

Search for a command to run...

MDMMT-2:面向视频检索的多领域多模态Transformer,向通用性再进一步

Alexander Kunitsyn Maksim Kalashnikov Maksim Dzabraev Andrei Ivaniuta

摘要

在本工作中,我们提出了一种基于单一模型的文本到视频检索任务的最新技术水平,该成果在MSR-VTT、LSMDC、MSVD、YouCook2和TGIF五个基准数据集上均取得了优异表现。研究整合了三种不同类型的数据源:弱监督视频数据、众包标注的文本-图像配对数据以及文本-视频配对数据。通过对现有预训练网络的深入分析,我们选取了最具价值的先验知识模型以提升性能。为此,我们设计了一种三阶段训练流程,该流程具有高效的迁移学习能力,能够在训练过程中有效利用带有噪声的数据集,同时避免先验知识的退化。此外,为实现更优的多模态融合效果,本文引入了双位置编码机制,并提出了一种针对非正方形输入的简单处理方法。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供