
摘要
最近提出的伪装物体检测(COD)旨在分割在视觉上与其周围环境融合的物体,这在现实场景中极为复杂且困难。除了伪装物体与背景之间存在较高的固有相似性外,这些物体通常在尺度上具有多样性,外观模糊,甚至严重遮挡。为了解决这些问题,我们提出了一种混合尺度三元组网络——ZoomNet,该网络模拟了人类观察模糊图像时的行为,即放大和缩小。具体而言,我们的ZoomNet通过设计的尺度融合单元和层次混合尺度单元采用放大策略来学习区分性的混合尺度语义,从而充分探索候选物体与背景环境之间的不易察觉的线索。此外,考虑到不可区分纹理带来的不确定性和模糊性,我们构建了一个简单而有效的正则化约束——不确定性感知损失(uncertainty-aware loss),以促进模型在候选区域中更准确地生成高置信度的预测结果。无需复杂的附加功能,我们所提出的高度任务友好的模型在四个公开数据集上持续超越现有的23种最先进方法。此外,该模型在SOD任务上的表现优于近期的前沿模型,进一步验证了其有效性和通用性。代码将在\url{https://github.com/lartpang/ZoomNet}提供。
代码仓库
lartpang/zoomnet
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| camouflaged-object-segmentation-on-pcod-1200 | ZoomNet | S-Measure: 0.897 |
| image-segmentation-on-mas3k | ZoomNet | E-measure: 0.898 MAE: 0.032 S-measure: 0.862 mIoU: 0.736 |
| image-segmentation-on-rmas | ZoomNet | E-measure: 0.915 MAE: 0.022 S-measure: 0.855 mIoU: 0.728 |