ChenGuo ; XingSen ; ChenZhe ; WangYi ; LiKunchang ; LiYizhuo ; LiuYi ; WangJiahao ; ZhengYin-Dong ; HuangBingkun ; ZhaoZhiyu ; PanJunting ; HuangYifei ; WangZun ; YuJiashuo ; HeYinan ; ZhangHongjie ; LuTong ; WangYali ; WangLimin ; QiaoYu

摘要
在本报告中,我们介绍了在Ego4D挑战赛中五个赛道的冠军解决方案。我们利用开发的InternVideo视频基础模型,针对包括时刻查询(Moment Queries)、自然语言查询(Natural Language Queries)、未来手部预测(Future Hand Prediction)、状态变化物体检测(State Change Object Detection)和短期物体交互预测(Short-term Object Interaction Anticipation)在内的五项Ego4D任务进行了研究。InternVideo-Ego4D是一种有效的范式,通过简单的头部设计将强大的基础模型适应于下游以自我为中心的视频理解任务。在这五项任务中,InternVideo-Ego4D的表现全面超越了基线方法和CVPR2022的冠军方案,展示了InternVideo作为视频基础模型的强大表示能力。我们的代码将在https://github.com/OpenGVLab/ego4d-eccv2022-solutions 上发布。
代码仓库
jonnys1226/ego4d_asl
pytorch
GitHub 中提及
opengvlab/ego4d-eccv2022-solutions
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| future-hand-prediction-on-ego4d | InternVideo | C.Disp(Left): 53.33 C.Disp(Right): 53.37 Disp(Total): 196.8 M.Disp(Left): 43.25 M.Disp(Right): 46.25 |
| short-term-object-interaction-anticipation-on | InternVideo | Noun (Top5 mAP): 24.6 Noun+TTC (Top5 mAP): 7.64 Noun+Verb(Top5 mAP): 9.18 Overall (Top5 mAP): 3.4 |
| state-change-object-detection-on-ego4d | InternVideo | AP: 37.19 AP50: 55.97 AP75: 38.44 |