3 个月前

一种用于高效训练视频模型的多网格方法

一种用于高效训练视频模型的多网格方法

摘要

训练高效的深度视频模型,其耗时比相应的图像模型高一个数量级。训练速度缓慢导致研究周期延长,严重制约了视频理解领域的进展。在遵循图像模型训练的常规做法下,视频模型训练通常采用固定的最小批量(mini-batch)形状:即固定数量的视频片段、帧数和空间尺寸。然而,最优的批量形状究竟为何?高分辨率模型虽性能优异,但训练效率低下;低分辨率模型训练较快,却精度不足。受数值优化中多网格方法(multigrid methods)的启发,我们提出采用可变的最小批量形状,其时空分辨率按预定调度策略动态调整。不同的批量形状通过在多个采样网格上对训练数据进行重采样实现。当其他维度缩小的同时,通过扩大批量大小和学习率,显著加速训练过程。我们通过实验验证了一种通用且稳健的网格调度策略,在不损失准确率的前提下,显著提升了多种模型(I3D、非局部网络、SlowFast)、数据集(Kinetics、Something-Something、Charades)以及不同训练设置(是否预训练、使用128块GPU或仅1块GPU)下的训练速度。以典型示例说明,所提出的多网格方法在相同硬件条件下,使ResNet-50 SlowFast网络的训练速度提升4.5倍(按实际运行时间计算),同时在Kinetics-400数据集上的准确率还提升了0.8个百分点(绝对值)。相关代码已公开发布。

基准测试

基准方法指标
action-recognition-in-videos-on-somethingMultigrid
Top-1 Accuracy: 61.7
video-classification-on-charadesMultigrid
mAP: 38.2
video-classification-on-kineticsMultigrid
Top-1: 77.6

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
一种用于高效训练视频模型的多网格方法 | 论文 | HyperAI超神经