3 个月前

动作敏感性学习用于时序动作定位

动作敏感性学习用于时序动作定位

摘要

时间动作定位(Temporal Action Localization, TAL)是视频理解领域中一项具有挑战性的任务,旨在识别并定位视频中的动作实例。现有大多数方法直接预测动作类别并回归边界偏移量,却忽视了视频中每一帧在动作识别中的重要性差异。针对这一问题,本文提出一种动作敏感性学习框架(Action Sensitivity Learning, ASL),旨在评估每一帧对动作识别的贡献价值,并利用所生成的动作敏感性信息重新校准训练过程。我们首先设计了一个轻量级的动作敏感性评估器(Action Sensitivity Evaluator),分别在类别级和实例级学习动作敏感性。两个分支的输出被融合,用于重新加权两个子任务(分类与边界回归)的梯度,从而实现更精准的梯度传播。此外,基于每一帧的动作敏感性,我们进一步提出一种动作敏感对比损失(Action Sensitive Contrastive Loss),以增强特征表达:将具有动作感知能力的帧作为正样本对,主动拉远与无动作相关性的帧之间的特征距离。在多个主流动作定位基准数据集上的大量实验表明(包括 MultiThumos、Charades、Ego4D-Moment Queries v1.0、Epic-Kitchens 100、Thumos14 和 ActivityNet1.3),ASL 在多种场景下(如单标签、密集标注及第一人称视角)均显著优于当前最先进方法,在平均mAP(average-mAP)指标上取得了新的突破。

基准测试

基准方法指标
temporal-action-localization-on-thumos14ASL(I3D features)
Avg mAP (0.3:0.7): 67.9
mAP IOU@0.3: 83.1
mAP IOU@0.4: 79.0
mAP IOU@0.5: 71.7
mAP IOU@0.6: 59.7
mAP IOU@0.7: 45.8

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
动作敏感性学习用于时序动作定位 | 论文 | HyperAI超神经