4 个月前

视频中的时间关系推理

视频中的时间关系推理

摘要

时间关系推理,即在时间上连接物体或实体有意义的转换的能力,是智能物种的基本属性。本文介绍了一种有效且可解释的网络模块——时间关系网络(Temporal Relation Network, TRN),该模块旨在学习并推理视频帧之间在多个时间尺度上的依赖关系。我们使用三个近期的视频数据集——Something-Something、Jester 和 Charades——对配备 TRN 的网络进行了活动识别任务的评估,这些数据集从根本上依赖于时间关系推理。实验结果表明,所提出的 TRN 赋予了卷积神经网络显著的时间关系发现能力。通过仅稀疏采样的视频帧,配备 TRN 的网络能够准确预测 Something-Something 数据集中的人-物交互,并以非常有竞争力的性能识别 Jester 数据集中的各种人类手势。此外,配备 TRN 的网络在 Charades 数据集中识别日常活动方面也优于双流网络和三维卷积网络。进一步分析显示,模型学会了视频中直观且可解释的视觉常识知识。

代码仓库

基准测试

基准方法指标
action-classification-on-charadesMultiScale TRN
MAP: 25.2
action-classification-on-moments-in-timeTRN-Multiscale
Top 1 Accuracy: 28.27
Top 5 Accuracy: 53.87
action-recognition-in-videos-on-jester-1MultiScale TRN
Val: 95.31
action-recognition-in-videos-on-something-12-Stream TRN
Top 1 Accuracy: 42.01
action-recognition-in-videos-on-something-1M-TRN
Top 1 Accuracy: 34.4
action-recognition-in-videos-on-something-22-Stream TRN
Top 1 Accuracy: 42.01
action-recognition-in-videos-on-something-32-Stream TRN
Top-1 Accuracy: 55.52
Top-5 Accuracy: 83.06
hand-gesture-recognition-on-jester-testMultiscale TRN
Top 1 Accuracy: 94.78

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
视频中的时间关系推理 | 论文 | HyperAI超神经