3 个月前

NSNet:用于高效视频识别的非显著性抑制采样器

NSNet:用于高效视频识别的非显著性抑制采样器

摘要

在计算资源受限的场景下,实现高精度的视频识别对人工智能系统而言仍具挑战性。基于自适应推理的高效视频识别方法通常通过预览视频内容,聚焦于显著区域以降低计算开销。然而,现有大多数方法主要关注基于视频分类目标的复杂网络学习,普遍将所有帧视为正样本,极少在监督信号中关注正样本(显著帧)与负样本(非显著帧)之间的区分能力。为弥补这一不足,本文提出一种新型的非显著性抑制网络(Non-saliency Suppression Network, NSNet),能够有效抑制非显著帧的响应。具体而言,在帧级别,NSNet生成具有区分能力的有效伪标签,用于指导显著性特征的学习;在视频级别,通过在显著特征与非显著特征上施加双重视频级监督信号,学习一个时序注意力模块,进一步增强对非显著区域的抑制能力。来自两个层级的显著性度量被融合,以充分利用多粒度互补信息。在四个主流基准数据集上的大量实验表明,所提出的NSNet不仅实现了当前最优的精度-效率权衡,且相比现有先进方法,其实用推理速度显著提升2.4至4.3倍。项目主页详见:https://lawrencexia2008.github.io/projects/nsnet。

基准测试

基准方法指标
action-recognition-in-videos-on-activitynetNSNet (w/ Swin-L)
mAP: 94.3

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
NSNet:用于高效视频识别的非显著性抑制采样器 | 论文 | HyperAI超神经