4 个月前

多视图压缩编码用于3D重建

多视图压缩编码用于3D重建

摘要

视觉识别的一个核心目标是从单张图像中理解物体和场景。得益于大规模学习和通用表示方法的发展,二维(2D)识别已经取得了巨大进展。相比之下,三维(3D)识别面临着新的挑战,这些挑战主要来源于图像中未显示的遮挡问题。以往的研究尝试通过多视图推断或依赖稀少的计算机辅助设计(CAD)模型和类别特定的先验知识来克服这些问题,但这些方法限制了其在新环境中的扩展应用。在这项工作中,我们探索通过学习受自监督学习进展启发的通用表示来进行单视图3D重建。我们提出了一种简单的框架,该框架可以处理单个物体或整个场景的3D点云,并结合类别无关的大规模训练数据集,从多样化的RGB-D视频中进行训练。我们的模型——多视图压缩编码(Multiview Compressive Coding, MCC)——学会了将输入的外观和几何信息进行压缩,以预测3D结构,这通过查询一个具有3D感知能力的解码器实现。MCC的通用性和高效性使其能够从大规模且多样化数据源中学习,并对由DALL·E 2生成的新颖物体或使用iPhone在野外捕获的物体具有强大的泛化能力。

代码仓库

facebookresearch/mcc
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
single-view-3d-reconstruction-on-commonMCC
Avg. F1: 56.7

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
多视图压缩编码用于3D重建 | 论文 | HyperAI超神经