6 个月前

卷积神经网络

计算机视觉

Boyang Xia Wenhao Wu Haoran Wang Rui Su Dongliang He Haosen Yang Xiaoran Fan Wanli Ouyang

摘要

在计算资源受限的场景下，实现高精度的视频识别对人工智能系统而言仍具挑战性。基于自适应推理的高效视频识别方法通常通过预览视频内容，聚焦于显著区域以降低计算开销。然而，现有大多数方法主要关注基于视频分类目标的复杂网络学习，普遍将所有帧视为正样本，极少在监督信号中关注正样本（显著帧）与负样本（非显著帧）之间的区分能力。为弥补这一不足，本文提出一种新型的非显著性抑制网络（Non-saliency Suppression Network, NSNet），能够有效抑制非显著帧的响应。具体而言，在帧级别，NSNet生成具有区分能力的有效伪标签，用于指导显著性特征的学习；在视频级别，通过在显著特征与非显著特征上施加双重视频级监督信号，学习一个时序注意力模块，进一步增强对非显著区域的抑制能力。来自两个层级的显著性度量被融合，以充分利用多粒度互补信息。在四个主流基准数据集上的大量实验表明，所提出的NSNet不仅实现了当前最优的精度-效率权衡，且相比现有先进方法，其实用推理速度显著提升2.4至4.3倍。项目主页详见：https://lawrencexia2008.github.io/projects/nsnet。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

卷积神经网络

计算机视觉

Boyang Xia Wenhao Wu Haoran Wang Rui Su Dongliang He Haosen Yang Xiaoran Fan Wanli Ouyang

摘要

在计算资源受限的场景下，实现高精度的视频识别对人工智能系统而言仍具挑战性。基于自适应推理的高效视频识别方法通常通过预览视频内容，聚焦于显著区域以降低计算开销。然而，现有大多数方法主要关注基于视频分类目标的复杂网络学习，普遍将所有帧视为正样本，极少在监督信号中关注正样本（显著帧）与负样本（非显著帧）之间的区分能力。为弥补这一不足，本文提出一种新型的非显著性抑制网络（Non-saliency Suppression Network, NSNet），能够有效抑制非显著帧的响应。具体而言，在帧级别，NSNet生成具有区分能力的有效伪标签，用于指导显著性特征的学习；在视频级别，通过在显著特征与非显著特征上施加双重视频级监督信号，学习一个时序注意力模块，进一步增强对非显著区域的抑制能力。来自两个层级的显著性度量被融合，以充分利用多粒度互补信息。在四个主流基准数据集上的大量实验表明，所提出的NSNet不仅实现了当前最优的精度-效率权衡，且相比现有先进方法，其实用推理速度显著提升2.4至4.3倍。项目主页详见：https://lawrencexia2008.github.io/projects/nsnet。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供