
摘要
时间句子定位旨在根据语言描述定位相关的时刻。最近,类似DETR的方法通过预测目标时刻的中心和长度取得了显著进展。然而,由于时刻中心固有的模糊性导致的中心错位问题,这些方法的预测结果不够准确。为了解决这一问题,我们提出了一种新的边界导向时刻表示方法。在我们的框架中,模型不再需要找到精确的中心点,而是只需预测区间内的任意锚点,从该锚点直接估计边界即可。基于这一思想,我们设计了一种边界对齐的时刻检测变压器(Boundary-Aligned Moment Detection Transformer),并配备了双路径解码过程。具体而言,它分别使用全局注意力和边界聚焦注意力在并行路径中细化锚点和边界。这种独立设计使模型能够专注于期望区域,从而实现对时刻预测的精确优化。此外,我们还提出了一种基于质量的排序方法,确保高定位质量的提案优先于不完整的提案。我们在三个基准数据集上的实验验证了所提方法的有效性。代码可在https://github.com/Pilhyeon/BAM-DETR 获取。
代码仓库
Pilhyeon/BAM-DETR
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| moment-retrieval-on-charades-sta | BAM-DETR | R@1 IoU=0.5: 59.95 R@1 IoU=0.7: 39.38 |
| moment-retrieval-on-qvhighlights | BAM-DETR | R@1 IoU=0.5: 62.71 R@1 IoU=0.7: 48.64 mAP: 45.36 mAP@0.5: 64.57 mAP@0.75: 46.33 |
| moment-retrieval-on-qvhighlights | BAM-DETR (w/ audio) | R@1 IoU=0.5: 64.07 R@1 IoU=0.7: 48.12 mAP: 46.91 mAP@0.5: 65.61 mAP@0.75: 47.51 |
| moment-retrieval-on-qvhighlights | BAM-DETR (w/ PT ASR Captions) | R@1 IoU=0.5: 63.88 R@1 IoU=0.7: 47.92 mAP: 46.67 mAP@0.5: 66.33 mAP@0.75: 48.22 |
| natural-language-moment-retrieval-on-tacos | BAM-DETR | R@1,IoU=0.3: 56.69 R@1,IoU=0.5: 41.54 R@1,IoU=0.7: 26.77 mIoU: 39.31 |