4 个月前

基于视觉Transformer的多模态统一目标检测器

基于视觉Transformer的多模态统一目标检测器

摘要

传统系统通常需要不同的模型来处理不同的模态,例如一个模型用于处理RGB图像,另一个模型用于处理深度图像。最近的研究表明,可以通过跨模态迁移学习将一种模态的单个模型适应到另一种模态。在本文中,我们通过结合跨/多模态迁移学习与视觉变换器(Vision Transformer),开发了一种统一检测器,该检测器在多种模态下均表现出优异的性能。我们的研究设想了机器人应用中的一个场景,其中统一系统能够在不同光照条件下无缝切换RGB相机和深度传感器。重要的是,该系统无需更新模型架构或权重即可实现这种平滑过渡。具体而言,在低光照条件(夜间)下,系统使用深度传感器;而在光线充足的环境中,则同时使用RGB相机和深度传感器或仅使用RGB相机。我们在SUN RGB-D数据集上评估了我们的统一模型,并证明其在SUNRGBD16类别中的mAP50指标上达到了与现有最先进方法相当或更好的性能,在仅使用点云模式时也表现出可比的性能。此外,我们还引入了一种新颖的多模态混合方法,使我们的模型显著优于以往的方法。为了促进可重复性和进一步研究,我们提供了代码,包括训练/推理日志和模型检查点。\url{https://github.com/liketheflower/UODDM}

代码仓库

liketheflower/uoddm
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
object-detection-in-indoor-scenes-on-sun-rgbYONOD + CPPM (RGB + Depth)
AP 0.5: 58.1

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于视觉Transformer的多模态统一目标检测器 | 论文 | HyperAI超神经