3 个月前

InstanceFormer:一种在线视频实例分割框架

InstanceFormer:一种在线视频实例分割框架

摘要

基于Transformer的离线视频实例分割(VIS)方法近期取得了令人鼓舞的成果,显著优于在线方法。然而,这些方法依赖于完整的视频输入,且由于采用全时空注意力机制导致巨大的计算复杂度,限制了其在实际应用中的推广,尤其是在处理长时视频时。本文提出了一种单阶段、基于Transformer的高效在线VIS框架——InstanceFormer,特别适用于长时且具有挑战性的视频。我们设计了三个新颖组件,以建模短期与长期依赖关系以及时间一致性:首先,通过传播先前实例的表征、位置和语义信息,捕捉短期变化;其次,我们在解码器中提出一种新型的记忆交叉注意力机制,使网络能够在一定时间窗口内回顾早期的实例;最后,引入一种时间对比损失(temporal contrastive loss),以强制同一实例在所有帧间的表征保持一致性。记忆注意力机制与时间一致性建模对长程依赖关系的捕捉尤为有益,尤其在遮挡等复杂场景下表现突出。实验结果表明,InstanceFormer在多个数据集上显著超越了现有的在线基准方法;更重要的是,它在YouTube-VIS-2021和OVIS等具有挑战性的长视频数据集上,性能甚至超过了部分离线方法。代码已开源,地址为:https://github.com/rajatkoner08/InstanceFormer。

代码仓库

rajatkoner08/instanceformer
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
video-instance-segmentation-on-ovis-1InstanceFormer (Swin-L)
AP50: 42.5
AP75: 21.61
AR1: 12.9
AR10: 29.3
mask AP: 22.8
video-instance-segmentation-on-ovis-1InstanceFormer(ResNet-50)
AP50: 40.7
AP75: 18.1
AR1: 12
AR10: 27.1
mask AP: 20.0
video-instance-segmentation-on-youtube-vis-1InstanceFormer(Swin-L)
AP50: 78.0
AP75: 64.2
AR1: 50.9
AR10: 61.6
mask AP: 56.3
video-instance-segmentation-on-youtube-vis-1InstanceFormer(ResNet-50)
AP50: 68.6
AP75: 49.6
AR1: 42.1
AR10: 53.5
mask AP: 45.6
video-instance-segmentation-on-youtube-vis-2InstanceFormer (Swin-L)
AP50: 73.7
AP75: 56.9
AR1: 42.8
AR10: 56.0
mask AP: 51.0
video-instance-segmentation-on-youtube-vis-2InstanceFormer (ResNet-50)
AP50: 62.4
AP75: 43.7
AR1: 36.1
AR10: 48.1
mask AP: 40.8
video-instance-segmentation-on-youtube-vis-3InstanceFormer (Swin)
AP50_L: 44.6
AP75_L: 27.3
AR10_L: 29.2
AR1_L: 25.0
mAP_L: 26.3
video-instance-segmentation-on-youtube-vis-3InstanceFormer (Resnet-50)
AP50_L: 49.5
AP75_L: 26.7
AR10_L: 30.1
AR1_L: 23.9
mAP_L: 24.8

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
InstanceFormer:一种在线视频实例分割框架 | 论文 | HyperAI超神经