摘要

尽管基于CLIP的训练方法在视觉-语言模型中取得了成功，但其扩展到更多模态（如3D、音频等）的能力受到大规模数据的限制，这些数据对于罕见模态而言既昂贵又难以获取。本文介绍了ViT-Lens，该方法通过使用预训练的ViT感知新模态并将其对齐到预定义的空间中，从而促进高效的全模态表示学习。具体而言，特定于模态的透镜被调整以将多模态信号投影到共享嵌入空间中，然后由一个携带预训练图像知识的强大ViT进行处理。编码后的多模态表示被优化以与由现成的基础模型预定义的模态无关空间对齐。经过良好训练的带有ViT骨干网络的透镜有潜力作为这些基础模型之一，监督后续模态的学习。ViT-Lens为不断增加的模态提供了统一的表示学习解决方案，并具有两个显著优势：(i) 通过高效的数据机制有效利用预训练的ViT跨任务和领域；(ii) 由于模态对齐空间的存在，新模态在下游任务中的能力得到了体现。我们首先在3D场景下评估了ViT-Lens的效果。在零样本3D分类任务中，ViT-Lens相比之前的最先进方法取得了显著改进，在Objaverse-LVIS上达到了52.0%的准确率，在ModelNet40上达到了87.4%的准确率，在ScanObjectNN上达到了60.6%的准确率。此外，我们通过简单地将训练好的3D透镜集成到InstructBLIP模型中而无需任何适应，实现了零样本3D问答功能。未来我们将发布ViT-Lens在更多模态上的结果。

源 PDF 查看代码