3 个月前

RTQ:基于图像-文本模型重思视频-语言理解

RTQ:基于图像-文本模型重思视频-语言理解

摘要

近年来,视频-语言理解的研究在图像-文本模型的基础上取得了显著进展,得益于图像与视频之间共享的语义知识,相关方法已展现出令人瞩目的成果。然而,视频-语言理解仍面临独特的挑战,主要源于视频中包含的高度复杂的语义细节,导致信息冗余、时序依赖性增强以及场景结构复杂等问题。当前的技术手段仅部分缓解了上述难题,而我们的定量分析表明,现有方法之间具有一定的互补性。基于此,我们提出一种名为RTQ(Refine, Temporal model, and Query,即精炼、时序建模与查询)的新型框架,能够同步应对上述多重挑战。该方法通过帧内冗余信息的精炼、帧间时序关系的建模,以及从视频中主动查询任务相关的语义信息,实现了对视频内容的高效理解。值得注意的是,即使在不依赖视频-语言预训练的情况下,我们的模型仍表现出卓越的性能,其结果可与或优于当前最先进的预训练方法。相关代码已开源,地址为:https://github.com/SCZwangxiao/RTQ-MM2023。

代码仓库

sczwangxiao/tsgvs-mm2023
pytorch
GitHub 中提及
SCZwangxiao/RTQ-MM2023
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
video-captioning-on-msr-vtt-1RTQ
BLEU-4: 49.6
CIDEr: 69.3
ROUGE-L: 66.1
video-captioning-on-msvd-1RTQ
BLEU-4: 66.9
CIDEr: 123.4
ROUGE-L: 82.2
video-question-answering-on-next-qaRTQ
Accuracy: 63.2
video-retrieval-on-activitynetRTQ
text-to-video R@1: 53.5
text-to-video R@10: 91.9
text-to-video R@5: 81.4
video-retrieval-on-didemoRTQ
text-to-video R@1: 57.6
text-to-video R@10: 89.9
text-to-video R@5: 84.1
video-retrieval-on-msr-vtt-1kaRTQ
text-to-video R@1: 53.4
text-to-video R@10: 84.4
text-to-video R@5: 76.1

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
RTQ:基于图像-文本模型重思视频-语言理解 | 论文 | HyperAI超神经