4 个月前

基于长度感知的DETR用于鲁棒时刻检索

基于长度感知的DETR用于鲁棒时刻检索

摘要

视频片段检索(Video Moment Retrieval, MR)旨在根据给定的自然语言查询在视频中定位特定片段。鉴于像 YouTube 这样的平台在信息检索中的广泛应用,对 MR 技术的需求显著增长。最近基于 DETR 的模型在性能上取得了显著进展,但在准确定位短片段方面仍面临挑战。通过数据分析,我们发现短片段的特征多样性有限,这促使我们开发了 MomentMix 方法。MomentMix 采用了两种增强策略:前景混合(ForegroundMix)和背景混合(BackgroundMix),分别增强了前景和背景的特征表示。此外,我们的预测偏差分析显示,短片段在准确预测其中心位置时尤为困难。为了解决这一问题,我们提出了一种长度感知解码器(Length-Aware Decoder),该解码器通过一种新颖的二分匹配过程来调节长度。我们的大量研究表明,这种长度感知方法在定位短片段方面特别有效,从而提高了整体性能。我们的方法在基准数据集上超越了现有的基于 DETR 的最先进方法,在 QVHighlights 数据集上实现了最高的 R1 和 mAP,在 TACoS 和 Charades-STA 数据集上实现了最高的 R1@0.7(例如,在 QVHighlights 上 R1@0.7 提高了 2.46%,mAP 平均值提高了 2.57%)。代码已发布在 https://github.com/sjpark5800/LA-DETR。

代码仓库

sjpark5800/la-detr
官方
GitHub 中提及

基准测试

基准方法指标
moment-retrieval-on-qvhighlightsLA-DETR
R@1 IoU=0.5: 63.94
R@1 IoU=0.7: 51.10
mAP: 47.93
mAP@0.5: 65.65
mAP@0.75: 49.44

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于长度感知的DETR用于鲁棒时刻检索 | 论文 | HyperAI超神经