3 个月前

用于细粒度视频理解的时间查询网络

用于细粒度视频理解的时间查询网络

摘要

本研究的目标是在未修剪视频中实现动作的细粒度分类,其中动作可能在时间上持续较长,也可能仅占据视频中的少数几帧。为此,我们提出了一种查询-响应机制,其中每个查询对应一个特定问题,并拥有独立的响应标签集。本文作出以下四项主要贡献:(I)我们提出了一种新型模型——时间查询网络(Temporal Query Network, TQN),该模型实现了查询-响应功能,并支持对细粒度动作的结构化理解。TQN通过时间注意力机制聚焦于与每个查询相关的视频片段,且仅需每个查询对应的标签即可进行端到端训练。(ii)我们提出了一种新的训练方法——随机特征库更新(stochastic feature bank update),使得网络能够在不同长度的视频上进行训练,并满足细粒度查询所需的密集采样需求。(iii)我们对TQN与其他主流网络架构及文本监督方法进行了系统比较,并深入分析了各类方法的优缺点。(iv)我们在FineGym和Diving48两个基准数据集上对所提方法进行了全面评估,结果表明,仅使用RGB图像特征即可在细粒度动作分类任务中超越当前最优水平。

基准测试

基准方法指标
action-recognition-on-diving-48TQN
Accuracy: 81.8

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
用于细粒度视频理解的时间查询网络 | 论文 | HyperAI超神经