3 个月前

单机一天内训练大型视频模型

单机一天内训练大型视频模型

摘要

视频数据体量庞大,预处理复杂,训练速度缓慢。当前最先进的大规模视频模型通常需要在32块或更多GPU组成的集群上训练数天时间。因此,学术界在很大程度上已将大规模视频模型的训练工作让渡给工业界。本文展示了一种在单台机器上仅使用8块消费级GPU,即可在一天内完成最先进的视频模型训练的方法。我们识别出三个主要瓶颈——I/O、CPU与GPU计算,并对每一环节进行了优化。最终构建出一个高效且性能卓越的视频训练流水线。在相同模型架构下,我们的方法在仅需先前工作1/8计算量的情况下,仍能实现更高的准确率。相关代码已开源,地址为:https://github.com/zhaoyue-zephyrus/AVION。

代码仓库

zhaoyue-zephyrus/avion
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
action-recognition-on-epic-kitchens-100Avion (ViT-L)
Action@1: 54.4
Noun@1: 65.4
Verb@1: 73.0

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
单机一天内训练大型视频模型 | 论文 | HyperAI超神经