6 个月前

摘要

基于内容的视频检索（Content-based Video Retrieval, CBVR）广泛应用于媒体分享平台，支持视频推荐、过滤等应用场景。为应对规模达数十亿视频的数据库管理需求，视频级方法因其高效性而备受青睐，这类方法通常采用固定长度的嵌入表示（fixed-size embeddings）。本文提出一种新型视频区域注意力图网络（Video Region Attention Graph Networks, VRAG），显著提升了现有视频级方法的性能水平。我们通过区域级特征对视频进行更细粒度的建模，并利用区域间的关联关系来编码视频的时空动态特性。VRAG基于自注意力机制捕捉区域间的语义内容关联，并结合图卷积的排列不变性聚合策略，有效建模区域间的复杂关系。此外，我们证明通过将视频分割为镜头（shots），并采用镜头级嵌入进行检索，可显著缩小视频级方法与帧级方法之间的性能差距。我们在多个视频检索任务上对VRAG进行了评估，取得了当前视频级检索的最新最先进（state-of-the-art）结果。进一步地，我们的镜头级VRAG在检索精度上优于现有各类视频级方法，且在推理速度更快的前提下，其性能更接近帧级方法。最后，本文所提出的代码将对外公开，以促进相关研究的发展。

源 PDF