4 个月前

W-TALC:弱监督时间活动定位与分类

W-TALC:弱监督时间活动定位与分类

摘要

大多数文献中的活动定位方法都面临着逐帧标注的需求带来的负担。从弱标签中学习可能是减少这种手动标注工作量的一个潜在解决方案。近年来,互联网上出现了大量带有标签的视频,这些视频可以作为弱监督训练数据的丰富来源。具体而言,可以通过利用具有相似标签的视频之间的相关性来实现活动的时间定位。为此,我们提出了一种仅使用视频级标签的弱监督时间活动定位和分类框架(W-TALC)。所提出的网络可以分为两个子网络,即基于双流的特征提取网络和一个弱监督模块,通过优化两个互补的损失函数来学习该模块。在两个具有挑战性的数据集——Thumos14 和 ActivityNet1.2 上进行的定性和定量实验结果表明,所提出的方法能够在细粒度上检测活动,并且性能优于当前最先进的方法。

代码仓库

基准测试

基准方法指标
action-classification-on-activitynet-12W-TALC
mAP: 93.2
action-classification-on-thumos14W-TALC
mAP: 85.6
weakly-supervised-action-localization-onW-TALC
mAP@0.1:0.7: -
mAP@0.5: 22.8
weakly-supervised-action-localization-on-2W-TALC
mAP@0.5: 37.0
weakly-supervised-action-localization-on-7W-TALC
mAP: 3.45
mAP IOU@0.5: 6.18
mAP IOU@0.75: 3.15
mAP IOU@0.95: 0.83

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
W-TALC:弱监督时间活动定位与分类 | 论文 | HyperAI超神经