
摘要
本报告阐述了我们在2022年Epic-Kitchens动作识别挑战赛中获奖方案的技术思路。该方法基于我们近期提出的多视角视频识别模型——多视角Transformer(Multiview Transformer for Video Recognition, MTV),并将其扩展应用于多模态输入场景。最终提交的方案由一组多模态MTV(Multimodal MTV, M&M)模型构成,这些模型在骨干网络规模和输入模态方面各不相同,形成集成结构。该方法在测试集上的动作类别Top-1准确率达到52.8%,较去年冠军方案提升了4.1个百分点。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| action-recognition-on-epic-kitchens-100 | M&M (WTS 60M) | Action@1: 53.6 Noun@1: 66.3 Verb@1: 72.0 |