HyperAIHyperAI

Command Palette

Search for a command to run...

VGGT:视觉几何接地变压器

Jianyuan Wang Minghao Chen Nikita Karaev Andrea Vedaldi Christian Rupprecht David Novotny

Abstract

我们介绍了VGGT,一种前馈神经网络,该网络能够直接从一个、几个或数百个视图中推断出场景的所有关键3D属性,包括相机参数、点云图、深度图和3D点轨迹。这一方法在3D计算机视觉领域迈出了重要一步,以往的模型通常仅限于并专门针对单一任务。此外,该方法还具有简单高效的特点,能够在不到一秒的时间内重建图像,并且其性能仍然优于需要通过视觉几何优化技术进行后处理的替代方案。该网络在多个3D任务中取得了最先进的结果,包括相机参数估计、多视角深度估计、密集点云重建和3D点跟踪。我们还展示了使用预训练的VGGT作为特征骨干可以显著提升下游任务的性能,例如非刚性点跟踪和前馈新视图合成。代码和模型已在以下https链接公开提供。


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供