
摘要
可穿戴计算机的出现为人工智能(AI)提供了一种新型的上下文信息来源,这种信息嵌入在第一人称视角(egocentric)传感器数据中。此类新型第一人称数据具备精细的三维空间定位信息,因而为基于三维空间的新型空间基础模型(spatial foundation models)的发展创造了契机。为衡量我们所称的“第一人称基础模型”(Egocentric Foundation Models, EFMs)的研究进展,我们提出了EFM3D——一个包含两项核心三维第一人称感知任务的基准测试体系。EFM3D是首个基于高质量标注的第一人称数据(来自Project Aria项目)的三维目标检测与表面回归任务的基准,具有开创性意义。我们进一步提出第一人称体素提升(Egocentric Voxel Lifting, EVL),作为三维EFMs的基线模型。EVL充分利用所有可用的第一人称模态信息,并继承了二维基础模型的通用能力。该模型在大规模仿真数据上进行训练,其在EFM3D基准测试中的表现优于现有方法。
代码仓库
facebookresearch/efm3d
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 3d-object-detection-on-aeo | 3DETR | mAP: 16 |
| 3d-object-detection-on-aeo | EVL | mAP: 22 |
| 3d-object-detection-on-aeo | Cube R-CNN | mAP: 8 |
| 3d-object-detection-on-aeo | ImVoxelNet | mAP: 15 |
| 3d-object-detection-on-aria-synthetic | ImVoxelNet | MAP: 64 |
| 3d-object-detection-on-aria-synthetic | EVL | MAP: 75 |
| 3d-object-detection-on-aria-synthetic | 3DETR | MAP: 33 |
| 3d-object-detection-on-aria-synthetic | Cube R-CNN | MAP: 36 |
| 3d-reconstruction-on-aria-digital-twin | EVL | Accuracy: 18.2 Completeness: 3.105 Precision: 59.4 |
| 3d-reconstruction-on-aria-synthetic | EVL | Accuracy: 5.7 Completeness: 87.7 Precision: 82.2 Recall: 10.6 |