8 个月前

摘要

传统系统通常需要不同的模型来处理不同的模态，例如一个模型用于处理RGB图像，另一个模型用于处理深度图像。最近的研究表明，可以通过跨模态迁移学习将一种模态的单个模型适应到另一种模态。在本文中，我们通过结合跨/多模态迁移学习与视觉变换器（Vision Transformer），开发了一种统一检测器，该检测器在多种模态下均表现出优异的性能。我们的研究设想了机器人应用中的一个场景，其中统一系统能够在不同光照条件下无缝切换RGB相机和深度传感器。重要的是，该系统无需更新模型架构或权重即可实现这种平滑过渡。具体而言，在低光照条件（夜间）下，系统使用深度传感器；而在光线充足的环境中，则同时使用RGB相机和深度传感器或仅使用RGB相机。我们在SUN RGB-D数据集上评估了我们的统一模型，并证明其在SUNRGBD16类别中的mAP50指标上达到了与现有最先进方法相当或更好的性能，在仅使用点云模式时也表现出可比的性能。此外，我们还引入了一种新颖的多模态混合方法，使我们的模型显著优于以往的方法。为了促进可重复性和进一步研究，我们提供了代码，包括训练/推理日志和模型检查点。\url{https://github.com/liketheflower/UODDM}

源 PDF 查看代码