4 个月前

Uni3D:探索大规模统一的三维表示

Uni3D:探索大规模统一的三维表示

摘要

近年来,图像和文本表示的扩展研究已经取得了广泛进展,并引发了视觉和语言学习领域的革命。然而,三维物体和场景的可扩展表示相对较少被探索。在本工作中,我们介绍了 Uni3D,这是一种用于探索大规模统一三维表示的三维基础模型。Uni3D 使用端到端预训练的二维初始化 ViT(视觉变换器),将三维点云特征与图像-文本对齐特征进行对齐。通过简单的架构和预训练任务,Uni3D 可以利用丰富的二维预训练模型作为初始化,并将图像-文本对齐模型作为目标,从而释放二维模型及其扩展策略在三维世界中的巨大潜力。我们高效地将 Uni3D 扩展至十亿参数规模,并在一系列广泛的三维任务中创下了新的记录,例如零样本分类、少样本分类、开放世界理解以及部件分割。我们展示了强大的 Uni3D 表示还能够支持诸如野外三维绘画和检索等应用。我们认为,Uni3D 为探索三维领域内表示的扩展性和效率提供了新的方向。

代码仓库

baaivision/GeoDream
jax
GitHub 中提及
baaivision/uni3d
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
zero-shot-transfer-3d-point-cloudUni3D
Accuracy (%): 88.2
zero-shot-transfer-3d-point-cloud-2Uni3D
OBJ_ONLY Accuracy(%): 65.3

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Uni3D:探索大规模统一的三维表示 | 论文 | HyperAI超神经