
摘要
场景流估计的任务是描述时间上连续的点云之间的三维运动场。当前最先进的方法使用了强大的先验知识和测试时优化技术,但需要数十秒的时间来处理全尺寸点云,这使得它们无法作为实时应用(如开放世界物体检测)中的计算机视觉基本组件。前馈方法则显著更快,处理全尺寸点云仅需几十到几百毫秒,但需要昂贵的人工监督。为了解决这两个问题,我们提出了一种简单且可扩展的蒸馏框架——通过无标签优化方法生成伪标签以监督前馈模型的训练。我们在这个框架下的具体实现称为ZeroFlow,在Argoverse 2 自监督场景流挑战中达到了最先进的性能,同时完全不需要人工标签,仅通过大规模、多样化的无标签数据进行训练。在测试时,ZeroFlow 处理全尺寸点云的速度比无标签的最先进优化方法快1000多倍(34帧/秒对比0.028帧/秒),并且在无标签数据上的训练成本也比人工标注的成本低1000多倍(394美元对比约75万美元)。为了促进进一步的研究,我们在 https://vedder.io/zeroflow.html 上发布了我们的代码、训练好的模型权重以及高质量的伪标签,适用于Argoverse 2 和Waymo Open 数据集。
代码仓库
kylevedder/zeroflow
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| scene-flow-estimation-on-argoverse-2 | ZeroFlow 5x XL | EPE 3-Way: 0.049392 EPE Background Static: 0.013082 EPE Foreground Dynamic: 0.117688 EPE Foreground Static: 0.017406 |
| self-supervised-scene-flow-estimation-on-1 | ZeroFlow 5x XL | EPE 3-Way: 0.049392 EPE Background Static: 0.013082 EPE Foreground Dynamic: 0.117688 EPE Foreground Static: 0.017406 |
| self-supervised-scene-flow-estimation-on-1 | ZeroFlow | EPE 3-Way: 0.0814 EPE Foreground Dynamic: 0.2109 EPE Foreground Static: 0.0254 |