3 个月前

弱监督视频动作选择学习

Junwei Ma Satya Krishna Gorti Maksims Volkovs Guangwei Yu

摘要

在视频中定位动作是计算机视觉领域的核心任务之一。弱监督时序定位问题旨在探讨仅使用视频级别的标签是否足以完成该任务，从而显著减少对昂贵且易出错的精细标注数据的需求。一种常见的方法是训练一个帧级分类器，通过选取分类置信度最高的帧来生成视频级别的预测结果，随后利用这些帧的激活值进行动作定位。然而，由于缺乏帧级标注，分类器会对所有帧产生类别偏差。为解决这一问题，我们提出了动作选择学习（Action Selection Learning, ASL）方法，旨在捕捉动作的通用概念，我们称之为“动作性”（actionness）。在ASL框架下，模型被训练执行一种新颖的类别无关任务——预测分类器将选择哪些帧。实验结果表明，在两个主流基准数据集THUMOS-14和ActivityNet-1.2上，ASL分别相对于当前最优基线实现了10.3%和5.7%的相对性能提升。我们进一步分析了ASL的特性，验证了“动作性”这一概念的重要性。本工作的完整代码已开源，地址为：https://github.com/layer6ai-labs/ASL。

代码仓库

layer6ai-labs/ASL

官方

pytorch

基准测试

基准	方法	指标
weakly-supervised-action-localization-on-2	ASL	Mean mAP: 25.8 mAP@0.5: 40.2
weakly-supervised-action-localization-on-7	ASL	mAP: 3.30 mAP IOU@0.5: 2.68 mAP IOU@0.75: 0.81 mAP IOU@0.95: 3.30

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程

即用型 GPU

最优价格

立即开始

Hyper Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供