3 个月前

低保真视频编码器优化用于时序动作定位

低保真视频编码器优化用于时序动作定位

摘要

现有的大多数时间动作定位(Temporal Action Localization, TAL)方法均采用迁移学习范式:首先在大规模动作分类数据集(即源域)上优化视频编码器,随后冻结该编码器,并在动作定位数据集(即目标域)上训练TAL头。这一流程导致视频编码器面临任务不匹配的问题——其训练目标是动作分类,而实际应用中却需服务于动作定位任务。直观上,联合优化视频编码器与TAL头可有效缓解这一矛盾,构成一个强有力的基线方案。然而,由于长时未剪辑视频处理带来的巨大计算开销,该方法在GPU显存受限的TAL任务中难以实施。本文提出一种新颖的低保真度(Low-fidelity, LoFi)视频编码器优化方法,以解决上述挑战。不同于在TAL训练中始终使用完整的高分辨率配置,我们通过降低小批量样本在时间、空间或时空维度上的分辨率,从而在中等硬件配置下实现视频编码器与TAL头的联合优化。这一策略在不突破显存限制的前提下,使梯度能够基于TAL监督损失反向传播至视频编码器,有效缓解了任务不匹配问题,并生成更具表征能力的特征。大量实验表明,所提出的LoFi优化方法可显著提升现有TAL方法的性能。令人振奋的是,即使仅采用基于轻量级ResNet18的单流RGB视频编码器,本方法在多数情况下仍能超越基于双流(RGB + 光流)ResNet50的复杂模型,性能提升幅度可观。

基准测试

基准方法指标
temporal-action-localization-on-activitynetLoFi+G-TAD
mAP: 34.96
mAP IOU@0.5: 50.91
mAP IOU@0.75: 35.86
mAP IOU@0.95: 8.79
temporal-action-localization-on-hacsLoFi+G-TAD (RGB, RN18)
Average-mAP: 24.64
mAP@0.5: 37.78
mAP@0.75: 24.40
mAP@0.95: 7.29

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
低保真视频编码器优化用于时序动作定位 | 论文 | HyperAI超神经