3 个月前

VRAG:基于区域注意力图的内容感知视频检索

VRAG:基于区域注意力图的内容感知视频检索

摘要

基于内容的视频检索(Content-based Video Retrieval, CBVR)广泛应用于媒体分享平台,支持视频推荐、过滤等应用场景。为应对规模达数十亿视频的数据库管理需求,视频级方法因其高效性而备受青睐,这类方法通常采用固定长度的嵌入表示(fixed-size embeddings)。本文提出一种新型视频区域注意力图网络(Video Region Attention Graph Networks, VRAG),显著提升了现有视频级方法的性能水平。我们通过区域级特征对视频进行更细粒度的建模,并利用区域间的关联关系来编码视频的时空动态特性。VRAG基于自注意力机制捕捉区域间的语义内容关联,并结合图卷积的排列不变性聚合策略,有效建模区域间的复杂关系。此外,我们证明通过将视频分割为镜头(shots),并采用镜头级嵌入进行检索,可显著缩小视频级方法与帧级方法之间的性能差距。我们在多个视频检索任务上对VRAG进行了评估,取得了当前视频级检索的最新最先进(state-of-the-art)结果。进一步地,我们的镜头级VRAG在检索精度上优于现有各类视频级方法,且在推理速度更快的前提下,其性能更接近帧级方法。最后,本文所提出的代码将对外公开,以促进相关研究的发展。

基准测试

基准方法指标
video-retrieval-on-fivr-200kVRAG (CS)
mAP (CSVR): 0.678
mAP (DSVR): 0.723
mAP (ISVR): 0.554
video-retrieval-on-fivr-200kVRAG (video)
mAP (CSVR): 0.470
mAP (DSVR): 0.484
mAP (ISVR): 0.399

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
VRAG:基于区域注意力图的内容感知视频检索 | 论文 | HyperAI超神经