3 个月前

用于视频理解的可扩展分层交互行为检测方法

用于视频理解的可扩展分层交互行为检测方法

摘要

在视频理解任务中,即分析视频中“谁对谁做了什么”,动作与物体是核心要素。现有大多数动作识别研究主要针对经过良好裁剪的视频,集中于提升分类性能。然而,在实际场景中,动作在时间和空间上往往相互重叠,因此需要同时实现动作的定位与识别,即动作检测。此外,多数现有研究未考虑对新添加动作的可扩展性——即在已有模型基础上引入此前未训练过的动作。为此,本文提出一种可扩展的分层方法,用于检测通用动作与继承性动作。其中,通用动作通过结合物体运动及其间空间关系进行建模,而继承性动作则通过本体(ontology)与规则驱动的方法,依据相关物体进行定义。该方法的分层架构使其能够基于两物体间空间关系,检测任意交互动作。实验结果表明,该方法利用物体信息实现了90.27%的F值。此外,本文还详细阐述了该方法在来自与训练数据集不同视频域的新动作检测中的可扩展性。

基准测试

基准方法指标
action-recognition-in-videos-on-actionnet-veBaseline
F-measure (%): 90.27

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
用于视频理解的可扩展分层交互行为检测方法 | 论文 | HyperAI超神经