8 个月前

摘要

近期的伪装目标检测（COD）试图分割在视觉上与其周围环境融合的目标物体，这在实际场景中极为复杂和困难。除了伪装目标与背景之间存在较高的固有相似性外，目标物体通常在尺度上具有多样性，外观模糊，甚至严重遮挡。为此，我们提出了一种有效的统一协作金字塔网络，该网络模拟了人类观察模糊图像和视频时的行为，即放大和缩小。具体而言，我们的方法采用了放大策略，通过多头尺度集成单元和丰富的粒度感知单元来学习区分性的混合尺度语义，这些单元旨在充分探索候选目标与背景环境之间的不可见线索。前者通过其内在的多头聚合提供了更多样化的视觉模式；后者通过路由机制能够在时空场景中有效传播帧间差异，并且可以自适应地停用并输出全零结果以表示静态内容。它们为实现静态和动态COD的统一架构奠定了坚实的基础。此外，考虑到由无法区分的纹理引起的不确定性和模糊性，我们构建了一个简单而有效的正则化方法——不确定性感知损失，以鼓励对候选区域进行更高置信度的预测。我们的高度任务友好的框架在图像和视频COD基准测试中持续超越现有的最先进方法。我们的代码可以在{https://github.com/lartpang/ZoomNeXt}找到。

源 PDF 查看代码