HyperAI超神经

摘要

我们介绍了用于识别和定位视频片段中人类动作的Action Transformer模型。该模型重新利用了Transformer架构，以聚合目标人物周围的空间时间上下文特征。研究表明，通过使用高分辨率、特定于个人且类别无关的查询，模型能够自发地学习跟踪单个个体，并从其他人的动作中获取语义上下文信息。此外，其注意力机制还学会了强调手部和面部，这些部位对于区分动作往往至关重要——所有这一切均无需除边界框和类别标签之外的显式监督。我们在Atomic Visual Actions（AVA）数据集上训练并测试了我们的Action Transformer网络，仅使用原始RGB帧作为输入，就显著超越了现有最先进方法的表现。

摘要

Rohit Girdhar João Carreira Carl Doersch Andrew Zisserman

摘要

用 AI 构建 AI

HyperAI Newsletters

Rohit Girdhar João Carreira Carl Doersch Andrew Zisserman

摘要

用 AI 构建 AI

HyperAI Newsletters

Rohit Girdhar João Carreira Carl Doersch Andrew Zisserman

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

视频动作变换网络

Rohit Girdhar João Carreira Carl Doersch Andrew Zisserman

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

视频动作变换网络

Rohit Girdhar João Carreira Carl Doersch Andrew Zisserman

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

视频动作变换网络

Rohit Girdhar João Carreira Carl Doersch Andrew Zisserman

摘要

用 AI 构建 AI

HyperAI Newsletters