4 个月前

学习视觉变换器的相关结构

学习视觉变换器的相关结构

摘要

我们提出了一种新的注意力机制,称为结构自注意力(StructSA),该机制通过卷积识别键查询交互中自然出现的空间时间结构相关性模式来生成注意力图,并利用这些图动态聚合值特征的局部上下文。这有效地利用了图像和视频中的丰富结构模式,如场景布局、物体运动和物体间关系。以StructSA为主要构建模块,我们开发了结构视觉变换器(StructViT),并在图像和视频分类任务上评估了其有效性,取得了在ImageNet-1K、Kinetics-400、Something-Something V1 & V2、Diving-48和FineGym数据集上的最先进结果。

基准测试

基准方法指标
action-classification-on-kinetics-400StructViT-B-4-1
Acc@1: 83.4
action-recognition-in-videos-on-somethingStructVit-B-4-1
Top-1 Accuracy: 71.5
action-recognition-in-videos-on-something-1StructVit-B-4-1
Top 1 Accuracy: 61.3
action-recognition-on-diving-48StructVit-B-4-1
Accuracy: 88.3

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
学习视觉变换器的相关结构 | 论文 | HyperAI超神经