4 个月前

Open-YOLO 3D:实现快速且准确的开放词汇3D实例分割

Open-YOLO 3D:实现快速且准确的开放词汇3D实例分割

摘要

近期关于开放词汇3D实例分割的研究显示了强大的潜力,但其代价是推理速度较慢和计算需求较高。这种高计算成本通常归因于这些方法对3D剪辑特征的重度依赖,而这些特征需要像“Segment Anything”(SAM)和CLIP这样的计算密集型2D基础模型进行多视图聚合以生成3D特征。因此,这限制了它们在许多需要快速且准确预测的实际应用中的适用性。为此,我们提出了一种快速且准确的开放词汇3D实例分割方法,命名为Open-YOLO 3D,该方法仅利用多视图RGB图像中的2D对象检测来实现开放词汇3D实例分割。我们通过为场景中的对象生成类别无关的3D掩码,并将其与文本提示关联起来来解决这一任务。我们观察到,类别无关的3D点云实例的投影已经包含了实例信息;因此,使用SAM可能会导致冗余,从而不必要地增加推理时间。我们通过实验证明,使用2D对象检测器可以更快地实现文本提示与3D掩码的匹配,并且性能更佳。我们在两个基准数据集ScanNet200和Replica上验证了我们的Open-YOLO 3D,在两种情况下进行了测试:(i) 使用真实掩码的情况,其中给定的对象提案需要标签;(ii) 从3D提案网络生成的类别无关3D提案的情况。我们的Open-YOLO 3D在这两个数据集上均达到了最先进的性能,并且相比文献中最佳现有方法实现了高达约16倍的速度提升。在ScanNet200验证集上,我们的Open-YOLO 3D达到了平均精度(mAP)为24.7%,每场景处理时间为22秒。代码和模型可在github.com/aminebdj/OpenYOLO3D获取。

代码仓库

aminebdj/openyolo3d
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
3d-open-vocabulary-instance-segmentation-onOpen-YOLO 3D
AP Common: 24.3
AP Head: 27.8
AP Tail: 21.6
AP25: 36.2
AP50: 31.7
mAP: 24.7
3d-open-vocabulary-instance-segmentation-on-1Open-YOLO 3D
mAP: 23.7

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Open-YOLO 3D:实现快速且准确的开放词汇3D实例分割 | 论文 | HyperAI超神经