4 个月前

ViP-DeepLab:基于深度感知的视频全景分割学习视觉感知

ViP-DeepLab:基于深度感知的视频全景分割学习视觉感知

摘要

在本文中,我们介绍了ViP-DeepLab,这是一种统一模型,旨在解决视觉领域中长期存在的具有挑战性的逆投影问题。我们将该问题建模为从透视图像序列中恢复点云,并为每个点提供实例级别的语义解释。解决这一问题需要视觉模型预测每个3D点的空间位置、语义类别以及时间上一致的实例标签。ViP-DeepLab通过联合执行单目深度估计和视频全景分割来实现这一点。我们将这种联合任务称为深度感知视频全景分割(Depth-aware Video Panoptic Segmentation),并为此提出了一种新的评估指标以及两个衍生数据集,这些数据集将向公众开放。在各个子任务上,ViP-DeepLab也取得了最先进的结果,在Cityscapes-VPS数据集上的VPQ指标比先前方法提高了5.1%,并在KITTI单目深度估计基准测试和KITTI MOTS行人检测任务中均排名第一。相关数据集和评估代码已公开发布。

基准测试

基准方法指标
video-panoptic-segmentation-on-cityscapes-vpsVIP-Deeplab
VPQ: 63.1
VPQ (stuff): 73.0
VPQ (thing): 49.5

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
ViP-DeepLab:基于深度感知的视频全景分割学习视觉感知 | 论文 | HyperAI超神经