6 个月前

摘要

我们提出了一种新颖的成本聚合网络——成本聚合Transformer（Cost Aggregation Transformers, CATs），用于在语义相似但存在显著类内外观与几何变化的图像之间建立密集对应关系。成本聚合是匹配任务中至关重要的环节，其输出质量直接决定了匹配精度。与传统手工设计或基于卷积神经网络（CNN）的成本聚合方法相比，后者或难以应对严重形变，或受限于CNN固有的感受野有限问题，导致难以有效区分错误匹配，而CATs通过引入特定的网络结构设计，充分挖掘自注意力机制的优势，实现了对初始相关图中全局一致性信息的建模。具体而言，我们引入了外观亲和力建模，以辅助成本聚合过程，从而有效缓解初始相关图中的噪声干扰；同时提出多层级聚合策略，以高效捕获来自分层特征表示的不同语义信息。此外，我们结合交换式自注意力机制（swapping self-attention）与残差连接，不仅增强了匹配的一致性，还显著降低了模型训练难度，实验表明该设计带来了明显的性能提升。我们通过大量实验验证了所提模型相较于当前最新方法的优越性，并开展了详尽的消融研究以分析各模块的有效性。项目主页详见：https://sunghwanhong.github.io/CATs/。

源 PDF 查看代码