4 个月前

演化的时空神经架构用于视频

演化的时空神经架构用于视频

摘要

我们提出了一种新的方法,用于发现能够捕捉视频中丰富时空信息的卷积神经网络(CNN)架构。以往的研究通过利用3D卷积,手动设计视频CNN架构,取得了令人鼓舞的结果。在此基础上,我们开发了一种新颖的进化搜索算法,该算法能够自动探索具有不同层类型和组合的模型,以联合学习视频表示中的空间和时间方面的交互作用。我们通过将其应用于两种元架构来证明该算法的通用性,从而获得了优于手动设计架构的新架构。此外,我们提出了一种新的组件——iTGM层(Interactive Temporal Graph Module),它能更高效地利用参数,使得在更长时间范围内学习时空交互作用成为可能。进化算法通常倾向于选择iTGM层,并允许构建成本效益更高的网络。所提出的这种方法发现了之前未知的新颖且多样的视频架构。更重要的是,这些新架构不仅比先前的模型更准确,而且速度更快,在我们测试的多个数据集上均超过了现有最佳结果,包括HMDB、Kinetics和Moments in Time数据集。我们将开源代码和模型,以鼓励未来模型的发展。

基准测试

基准方法指标
action-classification-on-charadesEvaNet
MAP: 38.1
action-classification-on-kinetics-400EvaNet
Acc@1: 77.4
action-classification-on-moments-in-timeEvaNet
Top 1 Accuracy: 31.8%

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
演化的时空神经架构用于视频 | 论文 | HyperAI超神经