6 个月前

摘要

在复杂场景中实现鲁棒且可靠的语义分割，对于自动驾驶安全驾驶、夜间救援等实际应用至关重要。在大多数现有方法中，通常以RGB图像作为输入。然而，这些方法仅在理想天气条件下表现良好；当面临雨天、强光过曝或低光照等不利环境时，往往难以获得令人满意的结果。为此，近年来研究者开始探索多光谱语义分割，即同时利用RGB图像与热红外（RGBT）图像作为输入。这种方法显著提升了复杂场景及恶劣条件下图像目标的分割鲁棒性。然而，当前大多数方法仍局限于单一RGBT图像输入，难以充分应对动态真实场景的需求。基于上述观察，本文提出了一项相对较新的任务——多光谱视频语义分割（Multispectral Video Semantic Segmentation，简称MVSS）。为此，我们构建了一个自有的MVSeg数据集，包含738段经过校准的RGB与热红外视频序列，并配有3,545个细粒度的像素级语义标注，涵盖26个类别。该数据集涵盖了白天与夜间多种具有挑战性的城市场景。此外，我们提出了一种高效的MVSS基线模型——MVNet，据我们所知，这是首个能够联合学习多光谱与时空上下文语义表征的模型。我们在MVSeg数据集上对多种语义分割模型进行了全面实验。实验结果表明，引入多光谱视频输入可显著提升语义分割性能，同时验证了所提出的MVNet基线模型的有效性。

源 PDF 查看代码