3 个月前

多光谱视频语义分割:一个基准数据集与基线方法

多光谱视频语义分割:一个基准数据集与基线方法

摘要

在复杂场景中实现鲁棒且可靠的语义分割,对于自动驾驶安全驾驶、夜间救援等实际应用至关重要。在大多数现有方法中,通常以RGB图像作为输入。然而,这些方法仅在理想天气条件下表现良好;当面临雨天、强光过曝或低光照等不利环境时,往往难以获得令人满意的结果。为此,近年来研究者开始探索多光谱语义分割,即同时利用RGB图像与热红外(RGBT)图像作为输入。这种方法显著提升了复杂场景及恶劣条件下图像目标的分割鲁棒性。然而,当前大多数方法仍局限于单一RGBT图像输入,难以充分应对动态真实场景的需求。基于上述观察,本文提出了一项相对较新的任务——多光谱视频语义分割(Multispectral Video Semantic Segmentation,简称MVSS)。为此,我们构建了一个自有的MVSeg数据集,包含738段经过校准的RGB与热红外视频序列,并配有3,545个细粒度的像素级语义标注,涵盖26个类别。该数据集涵盖了白天与夜间多种具有挑战性的城市场景。此外,我们提出了一种高效的MVSS基线模型——MVNet,据我们所知,这是首个能够联合学习多光谱与时空上下文语义表征的模型。我们在MVSeg数据集上对多种语义分割模型进行了全面实验。实验结果表明,引入多光谱视频输入可显著提升语义分割性能,同时验证了所提出的MVNet基线模型的有效性。

基准测试

基准方法指标
video-semantic-segmentation-on-multispectralMVNet(FCN)
mIoU: 53.90
video-semantic-segmentation-on-multispectralMVNet(DeepLabV3)
mIoU: 54.52
video-semantic-segmentation-on-multispectralMVNet(PSPNet)
mIoU: 54.36

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
多光谱视频语义分割:一个基准数据集与基线方法 | 论文 | HyperAI超神经