
摘要
卷积和递归操作都是以一次处理一个局部邻域的方式构建的基本模块。在本文中,我们提出了一种用于捕捉长距离依赖关系的非局部操作作为一类通用的基本模块。该非局部操作受到计算机视觉领域经典非局部均值方法的启发,通过计算所有位置特征的加权和来确定某个位置的响应。这一基本模块可以嵌入到许多计算机视觉架构中。在视频分类任务上,即使没有任何额外的技术手段,我们的非局部模型也能在Kinetics和Charades数据集上与当前的比赛优胜者竞争或超越它们。在静态图像识别方面,我们的非局部模型在COCO系列任务中提高了目标检测/分割和姿态估计的性能。代码可在https://github.com/facebookresearch/video-nonlocal-net 获取。
代码仓库
WavesUR/embedded_TSM
pytorch
GitHub 中提及
tinymilky/RSANet
pytorch
GitHub 中提及
facebookresearch/SlowFast
pytorch
GitHub 中提及
sunutf/TSM
pytorch
GitHub 中提及
owena11/papers
GitHub 中提及
tea1528/Non-Local-NN-Pytorch
pytorch
GitHub 中提及
mirthai/csa-net
pytorch
GitHub 中提及
seominseok0429/inception-I3D-NON-LOCAL
pytorch
GitHub 中提及
Aprilkaka/nonlocal_mindspore
mindspore
GitHub 中提及
facebookresearch/video-nonlocal-net
官方
caffe2
GitHub 中提及
jiajunhua/facebookresearch-Detectron
caffe2
GitHub 中提及
cmsflash/efficient-attention
pytorch
GitHub 中提及
jordiae/DeepLearning-MAI
pytorch
GitHub 中提及
rijuldhir/TSM
pytorch
GitHub 中提及
MIT-HAN-LAB/temporal-shift-module
pytorch
GitHub 中提及
LRacoci/permutation-graphml
tf
GitHub 中提及
franknb/Self-attention-DCGAN
pytorch
GitHub 中提及
facebookresearch/detectron
pytorch
GitHub 中提及
JiaPeng1234/MRI-Segmentation-Transformer
tf
GitHub 中提及
tonysy/PyAction
pytorch
GitHub 中提及
open-mmlab/mmaction2
pytorch
changliu816/CV-paper-review
tf
GitHub 中提及
Mind23-2/MindCode-3/tree/main/I3D
mindspore
huyz1117/Non_Local_Net_TensorFlow
tf
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| action-classification-on-kinetics-400 | I3D + NL | Acc@1: 77.7 Acc@5: 93.3 |
| action-classification-on-toyota-smarthome | I3D + Non Local | CS: 53.6 CV1: 34.3 CV2: 43.9 |
| action-recognition-in-videos-on-something-1 | NL I3D | Top 1 Accuracy: 44.4 |
| instance-segmentation-on-coco-minival | Mask R-CNN (ResNet-101, +1 NL) | mask AP: 37.1 |
| instance-segmentation-on-coco-minival | Mask R-CNN (ResNet-50, +1 NL) | mask AP: 35.5 |
| instance-segmentation-on-coco-minival | Mask R-CNN (ResNext-152, +1 NL) | mask AP: 40.3 |
| keypoint-detection-on-coco | Mask R-CNN + NL blocks (4 in head, 1 in backbone) | Validation AP: 66.5 |
| object-detection-on-coco-minival | Mask R-CNN (ResNet-101 + 1 NL) | AP50: 63.1 AP75: 44.5 box AP: 40.8 |
| object-detection-on-coco-minival | Mask R-CNN (ResNeXt-152 + 1 NL) | AP50: 67.8 AP75: 48.9 box AP: 45.0 |
| object-detection-on-coco-minival | Mask R-CNN (ResNet-50 + 1 NL) | AP50: 61.1 AP75: 41.9 box AP: 39.0 |
| text-to-sql-on-2d-kitti-cars-easy | sdfa | 0..5sec: dafa |