3 个月前

EFM3D:面向3D第一人称基础模型进展的基准评测

EFM3D:面向3D第一人称基础模型进展的基准评测

摘要

可穿戴计算机的出现为人工智能(AI)提供了一种新型的上下文信息来源,这种信息嵌入在第一人称视角(egocentric)传感器数据中。此类新型第一人称数据具备精细的三维空间定位信息,因而为基于三维空间的新型空间基础模型(spatial foundation models)的发展创造了契机。为衡量我们所称的“第一人称基础模型”(Egocentric Foundation Models, EFMs)的研究进展,我们提出了EFM3D——一个包含两项核心三维第一人称感知任务的基准测试体系。EFM3D是首个基于高质量标注的第一人称数据(来自Project Aria项目)的三维目标检测与表面回归任务的基准,具有开创性意义。我们进一步提出第一人称体素提升(Egocentric Voxel Lifting, EVL),作为三维EFMs的基线模型。EVL充分利用所有可用的第一人称模态信息,并继承了二维基础模型的通用能力。该模型在大规模仿真数据上进行训练,其在EFM3D基准测试中的表现优于现有方法。

代码仓库

facebookresearch/efm3d
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
3d-object-detection-on-aeo3DETR
mAP: 16
3d-object-detection-on-aeoEVL
mAP: 22
3d-object-detection-on-aeoCube R-CNN
mAP: 8
3d-object-detection-on-aeoImVoxelNet
mAP: 15
3d-object-detection-on-aria-syntheticImVoxelNet
MAP: 64
3d-object-detection-on-aria-syntheticEVL
MAP: 75
3d-object-detection-on-aria-synthetic3DETR
MAP: 33
3d-object-detection-on-aria-syntheticCube R-CNN
MAP: 36
3d-reconstruction-on-aria-digital-twinEVL
Accuracy: 18.2
Completeness: 3.105
Precision: 59.4
3d-reconstruction-on-aria-syntheticEVL
Accuracy: 5.7
Completeness: 87.7
Precision: 82.2
Recall: 10.6

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
EFM3D:面向3D第一人称基础模型进展的基准评测 | 论文 | HyperAI超神经