8 个月前

卷积神经网络

计算机视觉

Ji Lin Chuang Gan Song Han

摘要

视频流媒体的爆炸性增长带来了在高精度和低计算成本下进行视频理解的挑战。传统的二维卷积神经网络（2D CNN）虽然计算成本较低，但无法捕捉时间关系；基于三维卷积神经网络（3D CNN）的方法可以实现良好的性能，但计算复杂度较高，导致部署成本高昂。本文提出了一种通用且有效的时移模块（Temporal Shift Module, TSM），该模块兼具高效性和高性能。具体而言，它可以达到三维卷积神经网络的性能水平，同时保持二维卷积神经网络的复杂度。TSM通过沿时间维度移动部分通道来促进相邻帧之间的信息交换。它可以插入到二维卷积神经网络中，以零计算量和零参数实现时间建模。我们还将TSM扩展到了在线设置中，从而实现了实时低延迟的在线视频识别和视频目标检测。TSM具有准确性和高效性：发布时在Something-Something排行榜上排名第一；在Jetson Nano和Galaxy Note8上，它分别实现了13毫秒和35毫秒的低延迟在线视频识别。代码可在以下地址获取：https://github.com/mit-han-lab/temporal-shift-module。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

卷积神经网络

计算机视觉

Ji Lin Chuang Gan Song Han

摘要

视频流媒体的爆炸性增长带来了在高精度和低计算成本下进行视频理解的挑战。传统的二维卷积神经网络（2D CNN）虽然计算成本较低，但无法捕捉时间关系；基于三维卷积神经网络（3D CNN）的方法可以实现良好的性能，但计算复杂度较高，导致部署成本高昂。本文提出了一种通用且有效的时移模块（Temporal Shift Module, TSM），该模块兼具高效性和高性能。具体而言，它可以达到三维卷积神经网络的性能水平，同时保持二维卷积神经网络的复杂度。TSM通过沿时间维度移动部分通道来促进相邻帧之间的信息交换。它可以插入到二维卷积神经网络中，以零计算量和零参数实现时间建模。我们还将TSM扩展到了在线设置中，从而实现了实时低延迟的在线视频识别和视频目标检测。TSM具有准确性和高效性：发布时在Something-Something排行榜上排名第一；在Jetson Nano和Galaxy Note8上，它分别实现了13毫秒和35毫秒的低延迟在线视频识别。代码可在以下地址获取：https://github.com/mit-han-lab/temporal-shift-module。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供