
摘要
在计算机视觉领域,参数高效调优(Parameter-Efficient Tuning, PET)正逐渐取代传统的预训练后全量微调范式。PET 特别受到青睐,因为它在大型基础模型中表现出色,能够简化迁移学习的成本并优化硬件利用率。然而,当前的 PET 方法主要针对单模态优化设计。尽管一些开创性的研究已经进行了初步探索,但这些方法仍停留在对齐编码器(例如 CLIP)的层面,缺乏对非对齐编码器的探讨。这些方法在使用非对齐编码器时表现不佳,因为它们无法在微调过程中有效对齐多模态特征。本文介绍了一种名为 DETRIS 的参数高效调优框架,该框架通过在每一层与所有前一层之间建立密集连接来增强低秩视觉特征传播,从而实现有效的跨模态特征交互和适应非对齐编码器。我们还建议使用文本适配器来改进文本特征。我们的方法虽然简单却非常高效,在具有挑战性的基准测试中,仅需更新 0.9% 到 1.8% 的主干网络参数即可显著超越现有最先进方法。我们的项目可在以下网址获取:https://github.com/jiaqihuang01/DETRIS。
代码仓库
jiaqihuang01/detris
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| referring-expression-segmentation-on-refcoco | DETRIS | Overall IoU: 81.0 |
| referring-expression-segmentation-on-refcoco-3 | DETRIS | Overall IoU: 75.2 |
| referring-expression-segmentation-on-refcoco-4 | DETRIS | Overall IoU: 78.6 |
| referring-expression-segmentation-on-refcoco-5 | DETRIS | Overall IoU: 70.2 |
| referring-expression-segmentation-on-refcoco-6 | DETRIS | IoU: 81.0 |
| referring-expression-segmentation-on-refcoco-8 | DETRIS | Overall IoU: 81.9 |
| referring-expression-segmentation-on-refcoco-9 | DETRIS | Overall IoU: 79.0 |
| referring-expression-segmentation-on-refcocog | DETRIS | Overall IoU: 74.6 |
| referring-expression-segmentation-on-refcocog-1 | DETRIS | Overall IoU: 75.3 |