4 个月前

InternVideo-Ego4D:应对Ego4D挑战的一系列冠军解决方案

InternVideo-Ego4D:应对Ego4D挑战的一系列冠军解决方案

摘要

在本报告中,我们介绍了在Ego4D挑战赛中五个赛道的冠军解决方案。我们利用开发的InternVideo视频基础模型,针对包括时刻查询(Moment Queries)、自然语言查询(Natural Language Queries)、未来手部预测(Future Hand Prediction)、状态变化物体检测(State Change Object Detection)和短期物体交互预测(Short-term Object Interaction Anticipation)在内的五项Ego4D任务进行了研究。InternVideo-Ego4D是一种有效的范式,通过简单的头部设计将强大的基础模型适应于下游以自我为中心的视频理解任务。在这五项任务中,InternVideo-Ego4D的表现全面超越了基线方法和CVPR2022的冠军方案,展示了InternVideo作为视频基础模型的强大表示能力。我们的代码将在https://github.com/OpenGVLab/ego4d-eccv2022-solutions 上发布。

代码仓库

jonnys1226/ego4d_asl
pytorch
GitHub 中提及
opengvlab/ego4d-eccv2022-solutions
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
future-hand-prediction-on-ego4dInternVideo
C.Disp(Left): 53.33
C.Disp(Right): 53.37
Disp(Total): 196.8
M.Disp(Left): 43.25
M.Disp(Right): 46.25
short-term-object-interaction-anticipation-onInternVideo
Noun (Top5 mAP): 24.6
Noun+TTC (Top5 mAP): 7.64
Noun+Verb(Top5 mAP): 9.18
Overall (Top5 mAP): 3.4
state-change-object-detection-on-ego4dInternVideo
AP: 37.19
AP50: 55.97
AP75: 38.44

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
InternVideo-Ego4D:应对Ego4D挑战的一系列冠军解决方案 | 论文 | HyperAI超神经