4 个月前

BAM-DETR:用于视频中时间句子定位的边界对齐时刻检测变压器

BAM-DETR:用于视频中时间句子定位的边界对齐时刻检测变压器

摘要

时间句子定位旨在根据语言描述定位相关的时刻。最近,类似DETR的方法通过预测目标时刻的中心和长度取得了显著进展。然而,由于时刻中心固有的模糊性导致的中心错位问题,这些方法的预测结果不够准确。为了解决这一问题,我们提出了一种新的边界导向时刻表示方法。在我们的框架中,模型不再需要找到精确的中心点,而是只需预测区间内的任意锚点,从该锚点直接估计边界即可。基于这一思想,我们设计了一种边界对齐的时刻检测变压器(Boundary-Aligned Moment Detection Transformer),并配备了双路径解码过程。具体而言,它分别使用全局注意力和边界聚焦注意力在并行路径中细化锚点和边界。这种独立设计使模型能够专注于期望区域,从而实现对时刻预测的精确优化。此外,我们还提出了一种基于质量的排序方法,确保高定位质量的提案优先于不完整的提案。我们在三个基准数据集上的实验验证了所提方法的有效性。代码可在https://github.com/Pilhyeon/BAM-DETR 获取。

代码仓库

Pilhyeon/BAM-DETR
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
moment-retrieval-on-charades-staBAM-DETR
R@1 IoU=0.5: 59.95
R@1 IoU=0.7: 39.38
moment-retrieval-on-qvhighlightsBAM-DETR
R@1 IoU=0.5: 62.71
R@1 IoU=0.7: 48.64
mAP: 45.36
mAP@0.5: 64.57
mAP@0.75: 46.33
moment-retrieval-on-qvhighlightsBAM-DETR (w/ audio)
R@1 IoU=0.5: 64.07
R@1 IoU=0.7: 48.12
mAP: 46.91
mAP@0.5: 65.61
mAP@0.75: 47.51
moment-retrieval-on-qvhighlightsBAM-DETR (w/ PT ASR Captions)
R@1 IoU=0.5: 63.88
R@1 IoU=0.7: 47.92
mAP: 46.67
mAP@0.5: 66.33
mAP@0.75: 48.22
natural-language-moment-retrieval-on-tacosBAM-DETR
R@1,IoU=0.3: 56.69
R@1,IoU=0.5: 41.54
R@1,IoU=0.7: 26.77
mIoU: 39.31

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
BAM-DETR:用于视频中时间句子定位的边界对齐时刻检测变压器 | 论文 | HyperAI超神经