4 个月前

在对比语言-图像-3D预训练中构建整体3D表征

在对比语言-图像-3D预训练中构建整体3D表征

摘要

对比学习已成为3D开放世界理解的一个有前景的范式,即分别将点云表示对齐到图像和文本嵌入空间。在本文中,我们介绍了MixCon3D,这是一种简单而有效的方法,旨在通过对比语言-图像-3D预训练来构建整体的3D表示。与仅使用点云相比,我们从互补的角度开发了3D对象级别的表示,例如多视角渲染图像与点云相结合。随后,MixCon3D执行语言-3D对比学习,全面描述现实世界的3D对象并增强文本对齐。此外,我们首次对3D对比学习范式的各种训练方法进行了彻底的研究,建立了一个性能改进的坚实基线。在三个具有代表性的基准数据集上进行的大量实验表明,我们的方法显著优于基线,在具有挑战性的1,156类Objaverse-LVIS数据集上的性能比之前最先进的方法提高了5.7%。MixCon3D的多功能性在诸如文本到3D检索和点云描述等应用中得到了展示,进一步证明了其在多种场景中的有效性。代码可在https://github.com/UCSC-VLAA/MixCon3D 获取。

代码仓库

ucsc-vlaa/mixcon3d
官方
pytorch

基准测试

基准方法指标
zero-shot-transfer-3d-point-cloudMixCon3D-PointBERT
Accuracy (%): 86.8
zero-shot-transfer-3d-point-cloud-2MixCon3D-PointBERT
OBJ_ONLY Accuracy(%): 58.6

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
在对比语言-图像-3D预训练中构建整体3D表征 | 论文 | HyperAI超神经