3 个月前

基于跨帧关联性的关系挖掘用于视频语义分割

基于跨帧关联性的关系挖掘用于视频语义分割

摘要

视频语义分割(Video Semantic Segmentation, VSS)的核心在于如何有效利用时序信息进行预测。以往的研究主要致力于开发新型技术以计算帧间关联性,例如光流(optical flow)和注意力机制(attention)。与此不同,本文从一个全新的视角出发,通过挖掘帧间关联性之间的内在关系,实现更优的时序信息聚合。我们从两个方面探索关联性之间的关系:单尺度内在相关性与多尺度关联性。受传统特征处理方法的启发,本文提出单尺度关联性精炼(Single-scale Affinity Refinement, SAR)与多尺度关联性聚合(Multi-scale Affinity Aggregation, MAA)机制。为使MAA能够高效执行,我们进一步提出一种选择性标记掩码(Selective Token Masking, STM)策略,在计算关联性时,为不同尺度选择一组具有一致性的参考标记(reference tokens),该策略不仅保障了多尺度聚合的可行性,也显著提升了方法的计算效率。最终,经过SAR与MAA增强的帧间关联性被用于自适应地聚合时序信息。大量实验结果表明,所提方法在性能上优于当前最先进的VSS方法。代码已公开,可访问 https://github.com/GuoleiSun/VSS-MRCFA 获取。

代码仓库

guoleisun/vss-mrcfa
官方
pytorch

基准测试

基准方法指标
video-semantic-segmentation-on-vspwMRCFA(MiT-B5)
mIoU: 49.9

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于跨帧关联性的关系挖掘用于视频语义分割 | 论文 | HyperAI超神经