
摘要
学习视频表示是一项在算法和计算上都非常具有挑战性的任务。标准的视频卷积神经网络(CNN)架构通常是通过直接扩展为图像理解设计的架构来包含时间维度而构建的,使用诸如3D卷积等模块,或者通过双流设计来捕捉视频中的外观和运动信息。我们将视频CNN解释为多流卷积块的集合,这些卷积块相互连接,并提出了一种自动寻找具有更好连通性和时空交互性的神经架构的方法,以提高对视频的理解能力。该方法通过由连接权重学习引导的过度连接架构群体进化来实现。我们搜索结合了不同输入类型(即RGB和光流)在多个时间分辨率下的表示的架构,从而允许不同类型或来源的信息之间进行交互。我们的方法被称为AssembleNet,在公开的视频数据集上表现优于先前的方法,在某些情况下甚至有显著提升。我们在Charades数据集上获得了58.6%的平均精度均值(mAP),在Moments-in-Time数据集上达到了34.27%的准确率。
代码仓库
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| action-classification-on-charades | AssembleNet-101 | MAP: 58.6 |
| action-classification-on-charades | AssembleNet | MAP: 58.6 |
| action-classification-on-moments-in-time | AssembleNet | Top 1 Accuracy: 34.27% Top 5 Accuracy: 62.71% |
| multimodal-activity-recognition-on-moments-in | AssembleNet | Top-1 (%): 34.27 Top-5 (%): 62.71 |