3 个月前

基于时空像素级对比学习的无源域自适应视频语义分割

基于时空像素级对比学习的无源域自适应视频语义分割

摘要

无监督域自适应(Unsupervised Domain Adaptation, UDA)的语义分割方法通过同时访问源域和目标域数据,将带有标签的源域知识迁移到无标签的目标域。然而,在实际应用场景中,源域数据的访问往往受到限制甚至不可行,导致UDA方法的实用性受限。为应对这一挑战,近期研究转向了无源域域自适应(Source-Free Domain Adaptation, SFDA)框架,旨在不依赖源域数据的情况下,将已在源域训练好的模型适应至目标域。然而,现有的SFDA方法仅利用图像级信息进行适应,难以在视频任务中发挥最优性能。本文针对视频语义分割(Video Semantic Segmentation, VSS)场景下的SFDA问题展开研究,充分挖掘视频数据中的时序信息以提升域自适应能力。为此,我们提出了一种新颖的时空像素级对比学习方法(Spatio-Temporal Pixel-Level, STPL),该方法充分利用时空信息,更有效地应对源域数据不可获取的挑战。STPL显式地学习时空空间中像素间的语义关联,为无标签目标域提供强大的自监督信号,从而实现更鲁棒的模型适应。大量实验结果表明,与当前主流的UDA和SFDA方法相比,STPL在多个VSS基准测试上均取得了领先性能。代码已开源,地址为:https://github.com/shaoyuanlo/STPL

代码仓库

shaoyuanlo/stpl
官方
pytorch

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于时空像素级对比学习的无源域自适应视频语义分割 | 论文 | HyperAI超神经