
摘要
当前内容感知的视频检索研究亟需更高层次的视频表征,以描述相关事件、场景等之间的长程语义依赖关系。然而,现有方法通常将视频帧视为独立图像或短片段进行处理,难以有效建模长程语义依赖。本文提出一种名为TCA(Temporal Context Aggregation for Video Retrieval)的视频表征学习框架,该框架利用自注意力机制整合帧级特征间的长程时间上下文信息。为在视频检索数据集上训练该模型,我们进一步提出一种监督对比学习方法,该方法能够自动进行困难负样本挖掘,并结合记忆库(memory bank)机制以扩充负样本容量。在多个视频检索任务(包括CC_WEB_VIDEO、FIVR-200K和EVVE)上的大量实验表明,所提方法在使用视频级特征时,相较当前最优方法在FIVR-200K数据集上实现了约17%的mAP提升;同时,在推理速度方面,相较基于帧级特征的方法,实现了22倍的加速,且仍保持具有竞争力的性能表现。
代码仓库
xwen99/temporal_context_aggregation
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| video-retrieval-on-fivr-200k | TCAc | mAP (CSVR): 0.553 mAP (DSVR): 0.570 mAP (ISVR): 0.473 |
| video-retrieval-on-fivr-200k | TCAf | mAP (CSVR): 0.830 mAP (DSVR): 0.877 mAP (ISVR): 0.703 |
| video-retrieval-on-fivr-200k | TCAsym | mAP (CSVR): 0.698 mAP (DSVR): 0.728 mAP (ISVR): 0.592 |