6 个月前

摘要

本报告阐述了我们在2022年Epic-Kitchens动作识别挑战赛中获奖方案的技术思路。该方法基于我们近期提出的多视角视频识别模型——多视角Transformer（Multiview Transformer for Video Recognition, MTV），并将其扩展应用于多模态输入场景。最终提交的方案由一组多模态MTV（Multimodal MTV, M&M）模型构成，这些模型在骨干网络规模和输入模态方面各不相同，形成集成结构。该方法在测试集上的动作类别Top-1准确率达到52.8%，较去年冠军方案提升了4.1个百分点。

源 PDF