4 个月前

PonderV2:通过通用预训练范式为3D基础模型铺平道路

PonderV2:通过通用预训练范式为3D基础模型铺平道路

摘要

与众多自然语言处理(NLP)和二维视觉基础模型相比,学习三维基础模型面临着显著更大的挑战。这主要是由于下游任务中固有的数据变异性及多样性。本文介绍了一种新颖的通用三维预训练框架,旨在促进高效三维表示的获取,从而为构建三维基础模型铺平道路。考虑到富有信息量的三维特征应编码丰富的几何和外观线索,这些线索可用于生成逼真的图像,我们提出通过可微神经渲染来学习三维表示。我们通过比较渲染图像与真实图像,使用设计好的体素神经渲染器训练三维主干网络。值得注意的是,我们的方法可以无缝地将所学的三维编码器集成到各种下游任务中。这些任务不仅包括高层次的挑战如三维检测和分割,还包括低层次的目标如三维重建和图像合成,涵盖了室内和室外场景。此外,我们还展示了使用所提出的框架预训练二维主干网络的能力,其性能远超传统的预训练方法。PonderV2首次在11个室内外基准测试中达到了最先进的性能水平,表明了其有效性。代码和模型可在https://github.com/OpenGVLab/PonderV2 获取。

代码仓库

OpenGVLab/PonderV2
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
3d-semantic-segmentation-on-scannet-1PonderV2 + SparseUNet
Top-1 IoU: 0.386
Top-3 IoU: 0.386
3d-semantic-segmentation-on-scannet200PonderV2 + SparseUNet
test mIoU: 34.6
val mIoU: 32.3
semantic-segmentation-on-s3disPonderV2 + SparseUNet
Mean IoU: 79.9
mAcc: 86.5
oAcc: 92.5
semantic-segmentation-on-s3dis-area5PonderV2 + SparseUNet
mAcc: 79.0
mIoU: 73.2
oAcc: 92.2
semantic-segmentation-on-scannetPonderV2 + SparseUNet
test mIoU: 78.5
val mIoU: 77.0

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
PonderV2:通过通用预训练范式为3D基础模型铺平道路 | 论文 | HyperAI超神经