4 个月前

OpenDAS:开放词汇域适应的二维和三维分割

OpenDAS:开放词汇域适应的二维和三维分割

摘要

近期,视觉-语言模型(Vision-Language Models, VLMs)在分割技术方面取得了进展,通过从传统的预定义对象类别的封闭集分割转向开放词汇分割(Open-Vocabulary Segmentation, OVS),使得用户能够在训练过程中未见过的新类别和概念上进行分割。然而,这种灵活性也带来了权衡:完全监督的封闭集方法在基础类别上的表现仍然优于OVS方法,即在那些它们被明确训练过的类别上表现更好。这是由于VLMs缺乏像素对齐的训练掩码(这些模型是在图像-标题对上进行训练的),以及缺乏特定领域的知识,例如自动驾驶。因此,我们提出了开放词汇域适应的任务,旨在在保留VLMs开放词汇性质的同时注入特定领域的知识。通过这种方法,我们在基础类别和新类别上均实现了性能提升。现有的VLM适应方法虽然提高了基础(训练)查询的性能,但在新查询上未能完全保留VLMs的开放集能力。为了解决这一不足,我们将参数高效的提示调优与基于三元组损失的训练策略相结合,该策略使用辅助负向查询。值得注意的是,我们的方法是唯一一种在新类别上持续超越原始VLM的参数高效方法。经过适应后的VLMs可以无缝集成到现有的OVS流水线中,例如,在ADE20K数据集上的开放词汇2D分割中将OVSeg的mIoU提高+6.0%,在ScanNet++ Offices数据集上的开放词汇3D实例分割中将OpenMask3D的AP提高+4.1%,而无需其他更改。项目页面可在https://open-das.github.io/ 获取。

基准测试

基准方法指标
open-vocabulary-semantic-segmentation-on-2OVSeg + OpenDAS
mIoU: 35.8

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供