4 个月前

LD-DETR:循环解码器检测变换器用于视频片段检索和高光检测

LD-DETR:循环解码器检测变换器用于视频片段检索和高光检测

摘要

视频片段检索和高光检测旨在根据文本查询在视频中找到相应的内容。现有的模型通常首先使用对比学习方法对齐视频和文本特征,然后融合并提取多模态信息,最后通过Transformer解码器对多模态信息进行解码。然而,现有方法面临几个问题:(1)数据集中不同样本之间的重叠语义信息影响了模型的多模态对齐性能;(2)现有模型无法高效提取视频的局部特征;(3)现有模型使用的Transformer解码器不能充分解码多模态特征。为了解决上述问题,我们提出了LD-DETR模型用于视频片段检索和高光检测任务。具体而言,我们首先将相似度矩阵提炼为单位矩阵,以减轻重叠语义信息的影响。然后,我们设计了一种方法,使卷积层能够更高效地提取多模态局部特征。最后,我们将Transformer解码器的输出反馈到其自身,以充分解码多模态信息。我们在四个公开基准数据集上评估了LD-DETR,并进行了广泛的实验以证明我们方法的优越性和有效性。我们的模型在QVHighlight、Charades-STA和TACoS数据集上的表现优于当前最先进的模型。我们的代码可在https://github.com/qingchen239/ld-detr 获取。

代码仓库

qingchen239/ld-detr
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
moment-retrieval-on-charades-staLD-DETR
R@1 IoU=0.3: 73.92
R@1 IoU=0.5: 62.58
R@1 IoU=0.7: 41.56
mIoU: 53.44
moment-retrieval-on-qvhighlightsLD-DETR
R@1 IoU=0.5: 66.80
R@1 IoU=0.7: 51.04
mAP: 46.41
mAP@0.5: 67.61
mAP@0.75: 46.99
natural-language-moment-retrieval-on-tacosLD-DETR
R@1,IoU=0.3: 57.61
R@1,IoU=0.5: 44.31
R@1,IoU=0.7: 26.24
mIoU: 40.30

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
LD-DETR:循环解码器检测变换器用于视频片段检索和高光检测 | 论文 | HyperAI超神经