摘要

我们提出一个大规模的合成数据集，用于新视角合成任务，该数据集包含约30万张图像，由近2000个复杂场景通过高质量光线追踪技术在高分辨率（1600×1600像素）下渲染生成。该数据集的规模远超现有的新视角合成合成数据集，因而为模型的训练与评估提供了一个统一且庞大的基准。基于四种不同的高质量三维网格来源，本数据集中的场景在相机视角、光照条件、形状、材质和纹理等方面展现出极具挑战性的多样性。由于本数据集规模庞大，现有方法难以处理，为此我们提出了一种高效的基于体素的光场方法——稀疏体素光场（Sparse Voxel Light Field, SVLF），该方法在合成数据上的性能可与NeRF相媲美，同时在训练速度上快一个数量级，在渲染速度上快两个数量级。SVLF实现高效性的关键在于：采用稀疏体素八叉树结构、精细化的体素采样策略（每条光线仅需少量查询），以及简化的网络结构，并在训练过程中利用真实深度图作为监督信号。本数据集由NViSII生成，这是一个基于Python的光线追踪渲染器，专为非专家用户设计，具有易用性与可共享性；同时通过脚本化机制提供高度灵活性与强大功能，能够生成高质量、物理准确的渲染图像。通过对数据集子集的实验，我们对标准方法如NeRF和mip-NeRF（用于单场景建模）以及pixelNeRF（用于类别级建模）进行了对比分析，结果表明该领域仍亟需未来方法的进一步改进。

源 PDF