Command Palette
Search for a command to run...
面向流式3D重建的几何上下文Transformer
面向流式3D重建的几何上下文Transformer
LingBot-Map:用于流式 3D 重建的几何上下文变换器
摘要
流式三维重建旨在从视频流中恢复相机位姿和点云等三维信息,这需要满足几何精度、时间一致性和计算效率的要求。受同步定位与建图(SLAM)原理的启发,我们推出了 LingBot-Map,这是一个基于几何上下文转换器(GCT)架构的前馈式 3D 基础模型,专门用于从流式数据中重建场景。LingBot-Map 的核心特点在于其精心设计的注意力机制,该机制融合了锚点上下文(anchor context)、位姿参考窗口(pose-reference window)和轨迹记忆(trajectory memory),分别用于解决坐标定位、密集几何线索提取以及长程漂移校正问题。这一设计在保持流式状态紧凑的同时,保留了丰富的几何上下文信息,从而能够在处理超过 10,000 帧的长序列时,以约 20 FPS 的帧率稳定高效地运行,输入分辨率为 518 × 378。在多个基准测试中的广泛评估表明,与现有的流式方法及基于迭代优化的方法相比,我们的方法取得了更优越的性能。
一句话总结
LingBot-Map 是一个前馈式 3D 基础模型,用于流式 3D 重建,基于几何上下文 Transformer 架构构建,采用精心设计的注意力机制,整合锚点上下文、姿态参考窗口和轨迹记忆,以确保几何准确性和时间一致性,实现在 518 × 378 分辨率输入下超过 10,000 帧序列的稳定推理,帧率约为 20 FPS,并在各种基准测试中超越现有的流式和基于迭代优化的方法。
核心贡献
- LingBot-Map 被引入为一种前馈式 3D 基础模型,基于几何上下文 Transformer (GCT) 架构,用于从流式数据重建场景。
- 一种专门的注意力机制整合了锚点上下文、姿态参考窗口和轨迹记忆,以保留几何上下文并纠正长程漂移,无需测试时训练。
- 在各种基准测试上的广泛评估表明,该方法性能优于现有方法,同时实现在 518 × 378 分辨率输入下超过 10,000 帧序列的稳定推理,帧率约为 20 FPS。
引言
流式 3D 重建使机器人和自主系统能够从连续视频流中恢复相机姿态和点云,需要高几何准确性和时间一致性。虽然近期基础模型在离线场景中表现出色,但现有的流式方法难以在长序列中平衡丰富上下文与计算效率。循环方法常遗忘几何先验,缓存策略导致内存无界增长,混合 SLAM 系统依赖缓慢的迭代优化。本文引入 LingBot-Map,一种基于几何上下文 Transformer 的前馈式 3D 基础模型,旨在解决这些问题。其专门的注意力机制管理锚点上下文、局部姿态参考和轨迹记忆,实现在超过 10,000 帧序列中 20 FPS 的稳定推理。
数据集
数据集组成与来源
- 整理了一个包含 29 个数据集的训练语料库,涵盖室内、室外、以物体为中心、合成和真实世界场景。
- 数据分为无序帧的多视图集合和具有连续相机轨迹的视频序列。
- 评估基准包含五个数据集:Oxford Spires、ETH3D、7-Scenes、Tanks and Temples 和 NRGBD。
训练数据使用与采样
- 阶段 1 使用所有 29 个数据集构建通用几何先验,采样比例大致平衡。
- 阶段 2 将重点转向长轨迹视频数据,增加 TartanAir、Waymo 和 ScanNet++ 等数据集的采样权重。
- 在第二阶段,多视图专用数据集的权重降低或被移除,以优先考虑时间结构。
- Foldback 视频采样器通过在序列边界反转方向来创建时间连贯的子序列,以避免退化的振荡。
- 每次迭代每个场景采样 2 到 24 帧,动态批采样器每张 GPU 最多打包 48 张图像。
数据处理与标准化
- 所有公共数据集通过转换坐标系至 OpenCV 标准并将深度尺度归一化为米来标准化为统一格式。
- 基于文件一致性、最小帧阈值和无效深度值(如 NaN 或 Inf)过滤损坏的帧。
- 元数据序列化为 pickle 文件,包含场景列表、帧映射和 4x4 姿态矩阵,用于高效训练组合。
- 合成数据使用 Blender Cycles 从 Objaverse 和 Texverse 资产渲染,OpenEXR 格式包含度量深度。
专用数据构建
- 内部游戏引擎数据通过多样化的室内和室外环境提供长轨迹,同时排除过场动画和 UI 覆盖层。
- MatrixCity 空中和街道数据通过空间拓扑上的随机游走重新组织为时间连续序列。
- 跨场景遍历序列使用 Habitat-Sim 在 Gibson、Matterport3D 和 HM3D 场景中生成,以模拟跨多个房间的长程导航。
- 这种专用生成产生约 2,800 个序列,总计 14.4 TB,具有平滑的相机运动和真实的注视偏移。
评估基准配置
- Oxford Spires 使用 13 个场景,包含稀疏和密集帧设置,以测试单次通过和流式能力。
- 7-Scenes 帧通过步长为 5 进行下采样,以减少冗余同时保留视角覆盖。
- ETH3D 和 Tanks and Temples 利用所有可用帧,具有特定的深度阈值用于重建指标。
方法
本文提出 LingBot-Map,一种专为连续视觉输入的长程 3D 重建设计的流式基础模型。给定图像流 I={I1,I2,…},系统处理每个新帧 It 以估计其相机姿态 P^t 和深度图 D^t,仅使用当前和过去的观测值。这种方法能够在无需访问未来帧的情况下实时重建大规模 3D 环境。
整体框架如下面的管道图所示,依赖于从 DINOv2 初始化的 Vision Transformer (ViT) 骨干网络。每个输入图像被编码为 M 个图像 tokens,并辅以相机 token、四个 register tokens 和一个可学习的 anchor token。这些 tokens 经过多层 Frame Attention 和几何上下文注意力 (GCA) 交替处理。Frame Attention 细化每个帧内的特征,而 GCA 促进跨帧几何推理。最后,特定任务头预测绝对相机姿态和相应的深度图。
该架构的关键创新在于几何上下文注意力 (GCA) 机制,解决了在流式设置中管理几何上下文的挑战。模型必须保留足够的长程上下文以保证全局一致性,同时保持状态紧凑以实现高效推理。受经典 SLAM 系统启发,GCA 将流式上下文分解为三个互补组件:Anchor Context、Local Pose-Reference Window 和 Trajectory Memory。
Anchor Context 通过指定前 n 张图像作为锚帧来建立一致的坐标系和绝对尺度。Local Pose-Reference Window 维护最近 k 帧的滑动窗口,为精确帧配准提供密集视觉重叠。Trajectory Memory 保留完整观测历史的紧凑摘要以纠正累积漂移。这种结构化方法使模型能够在长期一致性与每帧有界成本之间取得平衡。
GCA 的效率通过专门的注意力掩码设计实现。如下面的注意力模式比较所示,标准全注意力无法以流式方式运行,而因果注意力导致内存随序列长度线性增长。滑动窗口注意力限制了计算但牺牲了长期上下文。相比之下,GCA 将锚点上下文、轨迹记忆和局部窗口组合成结构化掩码,在序列长度增加时保留丰富的长程上下文,同时使内存和计算几乎保持恒定。
为确保鲁棒的轨迹估计,模型整合了总结过去观测的轨迹记忆。该记忆维护所有过去帧的轻量级且时间有序的记录,提供长程线索以纠正漂移。该轨迹内的连接性和路径一致性得到管理,以确保序列间的平滑过渡,如下面的路径连接图所示。
训练使用包含深度、绝对姿态和相对姿态项的组合损失函数进行。深度和绝对姿态损失遵循标准定义,而相对姿态损失应用于滑动窗口内的帧对,以鼓励局部轨迹一致性。为处理长序列的计算成本,采用渐进视图训练策略,从短子序列开始并逐渐增加视图数量。此外,使用上下文并行性将视图分布在多个 GPU 上,实现长序列的高效训练。
对于推理,系统利用分页键值 (KV) 缓存布局来高效管理内存。这种方法消除了与标准连续布局相关频繁缓存更新的开销。通过利用优化的注意力内核和分页内存管理,实现达到实时性能,处理视频序列帧率约为 20 FPS,同时在数千帧上保持稳定重建。
实验
评估将 LingBot-Map 与离线、基于优化和流式基线在多样化基准上进行比较,以验证相机姿态估计和 3D 重建能力。结果表明,该方法在长序列中实现了优越的全局一致性和重建保真度,而竞争方法遭受累积漂移和几何碎片化。定性分析证实了准确轨迹跟踪通过复杂场景转换,无需显式优化或闭环。此外,消融研究验证了时间编码和轨迹记忆等架构组件对于保持长程稳定性和计算效率至关重要。
本文比较了有界姿态参考窗口与全因果注意力,以分析效率和准确性的权衡。有界窗口方法显著提高了推理速度并减少了内存消耗,同时降低了轨迹误差和平移误差。虽然全注意力产生稍好的旋转精度,但有界窗口为流式应用提供了优越的整体性能。有界窗口实现比全注意力更高的推理速度和更低的内存使用。全局轨迹准确度和平移误差随有界窗口配置改善。全注意力在旋转误差方面提供轻微优势,但遭受更高的计算成本。
本文在 Oxford Spires 数据集上评估相机姿态估计,将在线流式方法与离线、基于优化和其他在线基线进行比较。结果表明,所提方法在几乎所有指标上实现了优越性能,包括姿态准确度和轨迹一致性。它展示了相对于竞争流式方法的显著优势,同时优于计算成本更高的离线和基于优化的技术。所提在线方法实现了比离线和基于优化基线最高的姿态准确度和最低的轨迹误差。性能显著超过其他流式方法,后者遭受累积漂移和较低准确度。该方法在无需访问未来帧的情况下保持强大的全局一致性和局部帧间准确度。
本文进行消融研究以评估 Anchor Initialization、Context Tokens、Relative Pose Loss 和 Video RoPE 对模型姿态估计能力的单独贡献。结果表明,每个组件提供增量改进,完整配置在所有轨迹和姿态准确度指标上产生最佳性能。值得注意的是,通过 Video RoPE 包含时间位置编码导致轨迹误差最显著的减少。Anchor Initialization 解决尺度模糊并改善局部和全局姿态准确度。Context Tokens 保留来自完整历史的几何线索,有效减少累积漂移。Video RoPE 注入时间顺序,使模型能够推理序列结构以获得更好的轨迹一致性。
本文在大规模轨迹估计基准上评估 LingBot-Map 与最先进流式方法,在稀疏和密集帧设置下。结果表明,LingBot-Map 在两种场景下均实现优越轨迹准确度,而竞争方法随序列长度增加遭受显著性能下降。此外,所提方法在保持竞争力的推理速度同时,在评估方法中交付最高精度。LingBot-Map 在稀疏和密集设置下均实现最低轨迹误差,优于所有竞争流式基线。竞争方法在转向密集序列时显示准确度大幅下降,而 LingBot-Map 保持一致性能且漂移最小。该方法在准确度和效率之间实现稳健平衡,提供与其他实时流式方法相当的推理速度。
本文在三个数据集(ETH3D、7-Scenes、NRGBD)上评估 3D 重建质量,将 LingBot-Map 与各种在线流式基线进行比较。结果表明,所提方法在准确度、完整性和 F1 分数方面始终优于竞争方法。在 ETH3D 数据集上,所提方法实现比第二名显著更高 F1 分数,由准确度和完整性的改进驱动。对于 7-Scenes,该方法实现准确度和完整性的最低误差率,同时在所有在线方法中确保顶级 F1 排名。在 NRGBD 上,该方法展示明显优势,具有最佳 F1 分数和最低完整性误差,以显著幅度优于下一个最佳基线。
本文通过比较有界姿态参考窗口与全注意力验证其方法,揭示有界配置优化推理速度和内存使用同时改善轨迹准确度。在 Oxford Spires 数据集和大规模基准上的评估表明,所提方法通过最小化累积漂移而不牺牲精度,优于离线优化和竞争流式基线。消融研究确认 Video RoPE 和 Anchor Initialization 等组件对于解决尺度模糊和增强时间一致性至关重要。因此,该方法在多样化数据集上实现优越 3D 重建质量和轨迹性能,同时保持实时效率。