8 个月前

摘要

视频片段检索和高光检测旨在根据文本查询在视频中找到相应的内容。现有的模型通常首先使用对比学习方法对齐视频和文本特征，然后融合并提取多模态信息，最后通过Transformer解码器对多模态信息进行解码。然而，现有方法面临几个问题：（1）数据集中不同样本之间的重叠语义信息影响了模型的多模态对齐性能；（2）现有模型无法高效提取视频的局部特征；（3）现有模型使用的Transformer解码器不能充分解码多模态特征。为了解决上述问题，我们提出了LD-DETR模型用于视频片段检索和高光检测任务。具体而言，我们首先将相似度矩阵提炼为单位矩阵，以减轻重叠语义信息的影响。然后，我们设计了一种方法，使卷积层能够更高效地提取多模态局部特征。最后，我们将Transformer解码器的输出反馈到其自身，以充分解码多模态信息。我们在四个公开基准数据集上评估了LD-DETR，并进行了广泛的实验以证明我们方法的优越性和有效性。我们的模型在QVHighlight、Charades-STA和TACoS数据集上的表现优于当前最先进的模型。我们的代码可在https://github.com/qingchen239/ld-detr 获取。

源 PDF