6 个月前

卷积神经网络

计算机视觉

Wenhao Wu Yuxiang Zhao Yanwu Xu Xiao Tan Dongliang He Zhikang Zou Jin Ye Yingying Li Mingde Yao Zichao Dong

摘要

长时序建模与短时序建模是视频识别中两个互补且至关重要的方面。当前大多数先进方法主要关注短时序的时空建模，随后通过对多个片段（snippet）级别的预测结果进行平均，得到最终的视频级别预测。然而，这类方法在进行视频级预测时，并未充分考虑视频在时间维度上动态演变过程中的时空特征。为此，本文提出一种新颖的动态片段聚合（Dynamic Segment Aggregation, DSA）模块，用于捕捉片段之间的内在关联。具体而言，该模块通过自适应地生成卷积操作的动态核，实现对相邻片段间长时序信息的有效聚合。DSA模块具有高效、即插即用的特点，可与现成的基于片段的模型（如TSM、I3D）无缝结合，在几乎不增加计算开销的前提下，实现强大的长时序建模能力。由此构建的最终视频识别架构称为DSANet。我们在多个视频识别基准数据集（包括Mini-Kinetics-200、Kinetics-400、Something-Something V1和ActivityNet）上进行了大量实验，充分验证了该方法的优越性。实验结果表明，所提出的DSA模块能显著提升多种视频识别模型的性能。例如，在Kinetics-400数据集上，引入DSA模块后，I3D ResNet-50模型的Top-1准确率由74.9%提升至78.2%。相关代码已开源，地址为：https://github.com/whwu95/DSANet。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

卷积神经网络

计算机视觉

Wenhao Wu Yuxiang Zhao Yanwu Xu Xiao Tan Dongliang He Zhikang Zou Jin Ye Yingying Li Mingde Yao Zichao Dong

摘要

长时序建模与短时序建模是视频识别中两个互补且至关重要的方面。当前大多数先进方法主要关注短时序的时空建模，随后通过对多个片段（snippet）级别的预测结果进行平均，得到最终的视频级别预测。然而，这类方法在进行视频级预测时，并未充分考虑视频在时间维度上动态演变过程中的时空特征。为此，本文提出一种新颖的动态片段聚合（Dynamic Segment Aggregation, DSA）模块，用于捕捉片段之间的内在关联。具体而言，该模块通过自适应地生成卷积操作的动态核，实现对相邻片段间长时序信息的有效聚合。DSA模块具有高效、即插即用的特点，可与现成的基于片段的模型（如TSM、I3D）无缝结合，在几乎不增加计算开销的前提下，实现强大的长时序建模能力。由此构建的最终视频识别架构称为DSANet。我们在多个视频识别基准数据集（包括Mini-Kinetics-200、Kinetics-400、Something-Something V1和ActivityNet）上进行了大量实验，充分验证了该方法的优越性。实验结果表明，所提出的DSA模块能显著提升多种视频识别模型的性能。例如，在Kinetics-400数据集上，引入DSA模块后，I3D ResNet-50模型的Top-1准确率由74.9%提升至78.2%。相关代码已开源，地址为：https://github.com/whwu95/DSANet。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供