8 个月前

机器视觉 3D

多模态表征

计算机视觉

Ye Mao Junpeng Jing* Krystian Mikołajczyk

摘要

近期，利用视觉-语言模型（Vision-Language Models, VLMs）对齐三维点云与图像-文本信息的开放世界3D表征学习方法在3D零样本任务中表现出色。然而，用于这种对齐的CAD渲染图像往往缺乏真实感和纹理变化，影响了对齐的鲁棒性。此外，3D预训练数据集与2D预训练数据集之间的规模差异突显了将VLMs的表征能力有效迁移到3D学习中的必要性。本文介绍了一种新颖的开放世界3D模型——OpenDlign，该模型使用从扩散模型生成的深度对齐图像进行鲁棒的多模态对齐。由于扩散模型的随机性质，这些图像比CAD渲染图像具有更高的纹理多样性。通过优化深度图投影流程并设计特定于深度的提示，OpenDlign能够在有限的参数微调下充分利用预训练VLM中的丰富知识进行3D表征学习。实验结果表明，尽管仅在有限的ShapeNet数据集上微调了600万个参数，OpenDlign仍能在多种3D任务中实现高零样本和少样本性能。在零样本分类任务中，OpenDlign在ModelNet40上的表现超过了先前模型8.0%，在OmniObject3D上的表现则提高了16.4%。此外，使用深度对齐图像进行多模态对齐可以持续提升其他最先进模型的性能。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

机器视觉 3D

多模态表征

计算机视觉

Ye Mao Junpeng Jing* Krystian Mikołajczyk

摘要

近期，利用视觉-语言模型（Vision-Language Models, VLMs）对齐三维点云与图像-文本信息的开放世界3D表征学习方法在3D零样本任务中表现出色。然而，用于这种对齐的CAD渲染图像往往缺乏真实感和纹理变化，影响了对齐的鲁棒性。此外，3D预训练数据集与2D预训练数据集之间的规模差异突显了将VLMs的表征能力有效迁移到3D学习中的必要性。本文介绍了一种新颖的开放世界3D模型——OpenDlign，该模型使用从扩散模型生成的深度对齐图像进行鲁棒的多模态对齐。由于扩散模型的随机性质，这些图像比CAD渲染图像具有更高的纹理多样性。通过优化深度图投影流程并设计特定于深度的提示，OpenDlign能够在有限的参数微调下充分利用预训练VLM中的丰富知识进行3D表征学习。实验结果表明，尽管仅在有限的ShapeNet数据集上微调了600万个参数，OpenDlign仍能在多种3D任务中实现高零样本和少样本性能。在零样本分类任务中，OpenDlign在ModelNet40上的表现超过了先前模型8.0%，在OmniObject3D上的表现则提高了16.4%。此外，使用深度对齐图像进行多模态对齐可以持续提升其他最先进模型的性能。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

OpenDlign：基于深度对齐图像的开放世界点云理解 | 论文 | HyperAI超神经