HuangYifei ; ChenGuo ; XuJilan ; ZhangMingfang ; YangLijin ; PeiBaoqi ; ZhangHongjie ; DongLu ; WangYali ; WangLimin ; QiaoYu

摘要
将他人的活动映射到自己的视角是一项基本的人类技能,即使在很小的时候也是如此。为了更好地理解这一人类能力,我们引入了EgoExoLearn,这是一个大规模的数据集,模拟了人类跟随示范的过程,即个体在观看示范视频的指导下执行任务时录制的第一人称视频。该数据集重点关注日常辅助和专业支持的潜在应用,包含在日常生活场景和专门实验室中捕捉的120小时的第一人称和示范视频数据。除了视频外,我们还记录了高质量的眼动数据,并提供了详细的多模态注释,构建了一个用于建模人类从不同视角连接异步程序性动作能力的平台。为此,我们提出了诸如跨视角关联、跨视角行动规划和跨视角参照技能评估等基准测试,并进行了详细分析。我们期望EgoExoLearn能够成为连接不同视角下动作的重要资源,从而为创建能够在现实世界中无缝学习人类行为的AI代理铺平道路。代码和数据可在此处获取:https://github.com/OpenGVLab/EgoExoLearn
代码仓库
opengvlab/egoexolearn
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| action-anticipation-on-egoexolearn | Action anticipation baseline (co-training, with gaze) | Accuracy: 45.45 |
| action-anticipation-on-egoexolearn | Action anticipation baseline (co-training, no gaze) | Accuracy: 38.7 |
| action-quality-assessment-on-egoexolearn | RAAN+TL+Gaze | Accuracy: 81.27 |
| action-quality-assessment-on-egoexolearn | RAAN+TL | Accuracy: 79.875 |
| video-retrieval-on-egoexolearn | cross-view association baseline (no gaze, val) | Accuracy: 44.15 |
| video-retrieval-on-egoexolearn | cross-view association baseline (gaze, val) | Accuracy: 48.35 |