4 个月前

基于背景的时刻检测用于视频时刻检索

基于背景的时刻检测用于视频时刻检索

摘要

视频片段检索(VMR)旨在根据给定的自然语言查询在未剪辑的视频中识别出特定时刻。这一任务容易受到视频数据集中固有的弱对齐问题的影响。由于查询的模糊性,它可能无法完全覆盖对应时刻的相关细节,或者该时刻可能包含错位和无关的帧,这可能会限制进一步的性能提升。为了解决这一问题,我们提出了一种背景感知片段检测变压器(BM-DETR)。我们的模型采用了对比方法,精心利用了与其他视频时刻匹配的负向查询。具体而言,我们的模型通过计算每个帧在正向查询及其负向查询补集下的联合概率来预测目标时刻。这种方法有效地利用了周围的背景信息,提高了片段敏感度并增强了视频中的整体对齐效果。我们在四个基准数据集上进行了广泛的实验,证明了我们方法的有效性。我们的代码可在以下地址获取:\url{https://github.com/minjoong507/BM-DETR}

代码仓库

minjoong507/bm-detr
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
moment-retrieval-on-charades-staBM-DETR
R@1 IoU=0.5: 59.48
R@1 IoU=0.7: 38.33
moment-retrieval-on-qvhighlightsBM-DETR
R@1 IoU=0.5: 60.12
R@1 IoU=0.7: 43.05
mAP: 40.08
mAP@0.5: 63.08
mAP@0.75: 40.18

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于背景的时刻检测用于视频时刻检索 | 论文 | HyperAI超神经