6 个月前

摘要

近年来，视频-语言理解的研究在图像-文本模型的基础上取得了显著进展，得益于图像与视频之间共享的语义知识，相关方法已展现出令人瞩目的成果。然而，视频-语言理解仍面临独特的挑战，主要源于视频中包含的高度复杂的语义细节，导致信息冗余、时序依赖性增强以及场景结构复杂等问题。当前的技术手段仅部分缓解了上述难题，而我们的定量分析表明，现有方法之间具有一定的互补性。基于此，我们提出一种名为RTQ（Refine, Temporal model, and Query，即精炼、时序建模与查询）的新型框架，能够同步应对上述多重挑战。该方法通过帧内冗余信息的精炼、帧间时序关系的建模，以及从视频中主动查询任务相关的语义信息，实现了对视频内容的高效理解。值得注意的是，即使在不依赖视频-语言预训练的情况下，我们的模型仍表现出卓越的性能，其结果可与或优于当前最先进的预训练方法。相关代码已开源，地址为：https://github.com/SCZwangxiao/RTQ-MM2023。

源 PDF