3 个月前

RTMV:一种基于光线追踪的多视角合成数据集,用于新视角合成

RTMV:一种基于光线追踪的多视角合成数据集,用于新视角合成

摘要

我们提出一个大规模的合成数据集,用于新视角合成任务,该数据集包含约30万张图像,由近2000个复杂场景通过高质量光线追踪技术在高分辨率(1600×1600像素)下渲染生成。该数据集的规模远超现有的新视角合成合成数据集,因而为模型的训练与评估提供了一个统一且庞大的基准。基于四种不同的高质量三维网格来源,本数据集中的场景在相机视角、光照条件、形状、材质和纹理等方面展现出极具挑战性的多样性。由于本数据集规模庞大,现有方法难以处理,为此我们提出了一种高效的基于体素的光场方法——稀疏体素光场(Sparse Voxel Light Field, SVLF),该方法在合成数据上的性能可与NeRF相媲美,同时在训练速度上快一个数量级,在渲染速度上快两个数量级。SVLF实现高效性的关键在于:采用稀疏体素八叉树结构、精细化的体素采样策略(每条光线仅需少量查询),以及简化的网络结构,并在训练过程中利用真实深度图作为监督信号。本数据集由NViSII生成,这是一个基于Python的光线追踪渲染器,专为非专家用户设计,具有易用性与可共享性;同时通过脚本化机制提供高度灵活性与强大功能,能够生成高质量、物理准确的渲染图像。通过对数据集子集的实验,我们对标准方法如NeRF和mip-NeRF(用于单场景建模)以及pixelNeRF(用于类别级建模)进行了对比分析,结果表明该领域仍亟需未来方法的进一步改进。

基准测试

基准方法指标
novel-view-synthesis-on-rtmvPixel-NeRF (env: Amz. Ber.)
PSNR: 12.126
SSIM: 0.318
novel-view-synthesis-on-rtmvPixel-NeRF (env: Google Scan)
PSNR: 14.588
SSIM: 0.483
novel-view-synthesis-on-rtmvPixel-NeRF (env: Bricks)
PSNR: 12.149
SSIM: 0.523
novel-view-synthesis-on-rtmvPixel-NeRF (env: ABC)
PSNR: 12.149
SSIM: 0.629

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
RTMV:一种基于光线追踪的多视角合成数据集,用于新视角合成 | 论文 | HyperAI超神经