3 个月前

基于对比学习的视频检索中的时序上下文聚合

基于对比学习的视频检索中的时序上下文聚合

摘要

当前内容感知的视频检索研究亟需更高层次的视频表征,以描述相关事件、场景等之间的长程语义依赖关系。然而,现有方法通常将视频帧视为独立图像或短片段进行处理,难以有效建模长程语义依赖。本文提出一种名为TCA(Temporal Context Aggregation for Video Retrieval)的视频表征学习框架,该框架利用自注意力机制整合帧级特征间的长程时间上下文信息。为在视频检索数据集上训练该模型,我们进一步提出一种监督对比学习方法,该方法能够自动进行困难负样本挖掘,并结合记忆库(memory bank)机制以扩充负样本容量。在多个视频检索任务(包括CC_WEB_VIDEO、FIVR-200K和EVVE)上的大量实验表明,所提方法在使用视频级特征时,相较当前最优方法在FIVR-200K数据集上实现了约17%的mAP提升;同时,在推理速度方面,相较基于帧级特征的方法,实现了22倍的加速,且仍保持具有竞争力的性能表现。

代码仓库

基准测试

基准方法指标
video-retrieval-on-fivr-200kTCAc
mAP (CSVR): 0.553
mAP (DSVR): 0.570
mAP (ISVR): 0.473
video-retrieval-on-fivr-200kTCAf
mAP (CSVR): 0.830
mAP (DSVR): 0.877
mAP (ISVR): 0.703
video-retrieval-on-fivr-200kTCAsym
mAP (CSVR): 0.698
mAP (DSVR): 0.728
mAP (ISVR): 0.592

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于对比学习的视频检索中的时序上下文聚合 | 论文 | HyperAI超神经