3 个月前

DnS:面向高效且精准视频索引与检索的蒸馏与选择方法

DnS:面向高效且精准视频索引与检索的蒸馏与选择方法

摘要

本文针对大规模数据集中的高精度与高计算效率的内容驱动视频检索问题提出解决方案。当前方法通常分为两类:(i) 细粒度方法,采用时空表征与相似性计算,虽能实现优异的检索性能,但计算开销巨大;(ii) 粗粒度方法,将视频表示为全局向量进行索引,虽计算成本低,但因丢失时空结构而性能受限。针对这一权衡,本文提出一种基于知识蒸馏的框架——Distill-and-Select(DnS)。该框架从一个高性能的细粒度教师网络(Teacher Network)出发,学习:a) 多个在检索性能与计算效率之间具有不同权衡的教师学生网络(Student Networks);b) 一个选择器网络(Selector Network),在测试阶段可快速判断输入样本应由哪个学生网络处理,从而在保持高检索性能的同时实现高计算效率。我们训练了多种架构的学生网络,获得了在性能与效率(包括速度与存储需求)之间不同权衡的模型,其中部分细粒度学生网络采用二值化表示对视频进行存储与索引。尤为重要的是,所提出的方案能够在大规模无标签数据集上实现有效的知识蒸馏,从而训练出性能优异的学生模型。我们在五个公开数据集上针对三种不同的视频检索任务对DnS进行了评估,结果表明:a) 所得学生网络在多个场景下达到了当前最优的检索性能;b) DnS框架在检索性能、计算速度与存储空间之间实现了卓越的平衡。在特定配置下,该方法在保持与教师网络相当的平均精度均值(mAP)的同时,推理速度提升20倍,存储空间需求减少240倍。本文所构建的数据集与代码实现已公开:https://github.com/mever-team/distill-and-select。

代码仓库

mever-team/distill-and-select
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
video-retrieval-on-fivr-200kDnS (S^f_B)
mAP (CSVR): 0.863
mAP (DSVR): 0.909
mAP (ISVR): 0.729
video-retrieval-on-fivr-200kDnS (S^c)
mAP (CSVR): 0.558
mAP (DSVR): 0.574
mAP (ISVR): 0.476
video-retrieval-on-fivr-200kDnS (S^f_A)
mAP (CSVR): 0..875
mAP (DSVR): 0.921
mAP (ISVR): 0.741

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
DnS:面向高效且精准视频索引与检索的蒸馏与选择方法 | 论文 | HyperAI超神经