3 个月前

紧盯目标:视频Transformer中的轨迹注意力

紧盯目标:视频Transformer中的轨迹注意力

摘要

在视频Transformer模型中,时间维度通常被与两个空间维度同等处理。然而,在物体或摄像机可能发生运动的场景中,某一帧 $t$ 中图像上某一点所对应的物理点,可能与帧 $t+k$ 中同一位置的内容毫无关联。为了更好地理解动态场景,必须对这种时序对应关系进行建模。为此,我们提出了一种新型的即插即用模块——轨迹注意力(trajectory attention),该模块能够沿着隐式确定的运动轨迹聚合信息。此外,我们还提出了一种新方法,有效缓解了计算和内存开销随输入规模呈二次增长的问题,这对高分辨率视频或长时视频尤为重要。尽管这些方法在多种场景下均具实用性,我们将其应用于基于Transformer的视频动作识别任务,并在Kinetics、Something-Something V2以及Epic-Kitchens数据集上取得了当前最优的性能表现。相关代码与模型已开源,地址为:https://github.com/facebookresearch/Motionformer。

代码仓库

facebookresearch/Motionformer
官方
pytorch
GitHub 中提及
facebookresearch/xformers
pytorch
GitHub 中提及

基准测试

基准方法指标
action-classification-on-kinetics-400Motionformer-HR
Acc@1: 81.1
Acc@5: 95.2
action-recognition-in-videos-on-somethingMformer-L
GFLOPs: 1181x3
Parameters: N/A
Top-1 Accuracy: 68.1
Top-5 Accuracy: 91.2
action-recognition-in-videos-on-somethingMformer-HR
GFLOPs: 958.8x3
Parameters: N/A
Top-1 Accuracy: 67.1
Top-5 Accuracy: 90.6
action-recognition-in-videos-on-somethingMformer
Top-1 Accuracy: 66.5
Top-5 Accuracy: 90.1
action-recognition-on-epic-kitchens-100Mformer-HR
Action@1: 44.5
Noun@1: 58.5
Verb@1: 67.0
action-recognition-on-epic-kitchens-100Mformer-L
Action@1: 44.1
Noun@1: 57.6
Verb@1: 67.1
action-recognition-on-epic-kitchens-100Mformer
Action@1: 43.1
Noun@1: 56.5
Verb@1: 66.7

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
紧盯目标:视频Transformer中的轨迹注意力 | 论文 | HyperAI超神经