3 个月前

M&M Mix:一种多模态多视角Transformer集成模型

M&M Mix:一种多模态多视角Transformer集成模型

摘要

本报告阐述了我们在2022年Epic-Kitchens动作识别挑战赛中获奖方案的技术思路。该方法基于我们近期提出的多视角视频识别模型——多视角Transformer(Multiview Transformer for Video Recognition, MTV),并将其扩展应用于多模态输入场景。最终提交的方案由一组多模态MTV(Multimodal MTV, M&M)模型构成,这些模型在骨干网络规模和输入模态方面各不相同,形成集成结构。该方法在测试集上的动作类别Top-1准确率达到52.8%,较去年冠军方案提升了4.1个百分点。

基准测试

基准方法指标
action-recognition-on-epic-kitchens-100M&M (WTS 60M)
Action@1: 53.6
Noun@1: 66.3
Verb@1: 72.0

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
M&M Mix:一种多模态多视角Transformer集成模型 | 论文 | HyperAI超神经