3 个月前

ChangeCLIP:基于多模态视觉-语言表征学习的遥感变化检测

ChangeCLIP:基于多模态视觉-语言表征学习的遥感变化检测

摘要

遥感变化检测(Remote Sensing Change Detection, RSCD)旨在通过双时相遥感图像识别地表变化,广泛应用于环境监测、灾害预警等多个领域。过去十年,在人工智能浪潮的推动下,基于深度学习的变化检测方法不断涌现,并取得了显著突破。然而,这些方法多聚焦于视觉表征学习,忽视了多模态数据的潜在价值。近年来,基础视觉-语言模型(如CLIP)为多模态人工智能提供了新范式,在下游任务中展现出卓越性能。受此趋势启发,本文提出一种新型框架——ChangeCLIP,该框架充分利用图像-文本对中的鲁棒语义信息,专门面向遥感变化检测任务。具体而言,我们对原始CLIP模型进行了重构,以提取双时相遥感图像的特征,并设计了一种新颖的差异特征补偿模块,用于捕捉两者之间的细粒度语义变化。此外,我们提出一种基于视觉-语言驱动的解码器,通过融合图像-文本编码结果与解码阶段的视觉特征,进一步增强图像语义表达能力。实验结果表明,所提出的ChangeCLIP在五个广泛使用的遥感变化检测数据集上均达到当前最优性能,具体表现为:LEVIR-CD(IoU: 85.20%)、LEVIR-CD+(IoU: 75.63%)、WHUCD(IoU: 90.15%)、CDD(IoU: 95.87%)和SYSU-CD(IoU: 71.41%)。ChangeCLIP的代码及预训练模型将公开发布于 https://github.com/dyzy41/ChangeCLIP。

基准测试

基准方法指标
change-detection-on-cdd-dataset-season-1ChangeCLIP
F1: 97.89
F1-Score: 97.89
IoU: 95.87
Overall Accuracy: 99.48
Precision: 98.02
Recall: 97.77
change-detection-on-levir-cdChangeCLIP
F1: 92.01
IoU: 85.20
Overall Accuracy: 99.20
Precision: 93.40
Recall: 90.67

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
ChangeCLIP:基于多模态视觉-语言表征学习的遥感变化检测 | 论文 | HyperAI超神经