4 个月前

使用视觉基础模型和交叉注意力机制的鲁棒场景变化检测

使用视觉基础模型和交叉注意力机制的鲁棒场景变化检测

摘要

我们提出了一种新颖的场景变化检测方法,该方法利用了视觉基础模型DINOv2的强大特征提取能力,并集成了全图像交叉注意力机制,以应对光照变化、季节变化和视角差异等关键挑战。为了有效学习图像对之间的对应关系和非对应关系,我们建议:a) “冻结”骨干网络,以保留密集基础特征的通用性;b) 使用“全图像”交叉注意力机制,更好地解决图像对之间的视角差异问题。我们在两个基准数据集VL-CMU-CD和PSCD及其视角变化版本上评估了我们的方法。实验结果表明,在涉及图像对之间几何变化的场景中,F1分数有显著提升。这些结果表明,与现有的最先进方法相比,我们的方法具有更强的泛化能力,表现出对光度学和几何变化的鲁棒性以及在微调以适应新环境时更好的整体泛化性能。详细的消融研究进一步验证了我们架构中每个组件的贡献。我们的源代码可在以下地址获取:https://github.com/ChadLin9596/Robust-Scene-Change-Detection。

代码仓库

ChadLin9596/Robust-Scene-Change-Detection
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
scene-change-detection-on-unaligned-vl-cmu-cdRobust-Scene-Change-Detection
F1-score: 0.739
scene-change-detection-on-unaligned-vl-cmu-cdRobust-Scene-Change-Detection (Diff-View Augmentation)
F1-score: 0.784

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
使用视觉基础模型和交叉注意力机制的鲁棒场景变化检测 | 论文 | HyperAI超神经