3 个月前

AssembleNet++:通过注意力连接整合模态表征

AssembleNet++:通过注意力连接整合模态表征

摘要

我们提出了一类强大的视频模型,具备以下能力:(i)学习语义物体信息与原始外观及运动特征之间的交互关系;(ii)在网络的每个卷积块中引入注意力机制,以更有效地捕捉特征的重要性。我们引入了一种名为“peer-attention”的新型网络组件,该组件通过另一卷积块或输入模态动态学习注意力权重。即使在未进行预训练的情况下,我们的模型在标准公开的连续视频行为识别数据集上仍优于此前的先进方法,达到了新的最先进水平。我们进一步验证了来自物体模态的神经连接以及peer-attention机制具有广泛的适用性,能够有效提升多种现有架构的性能。我们将该模型明确命名为AssembleNet++。代码将公开于:https://sites.google.com/corp/view/assemblenet/

基准测试

基准方法指标
action-classification-on-charadesAssembleNet++ 50
MAP: 59.8
action-classification-on-charadesAssembleNet++ 50 without object
MAP: 54.98
action-classification-on-toyota-smarthomeAssembleNet++
CS: 63.6

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
AssembleNet++:通过注意力连接整合模态表征 | 论文 | HyperAI超神经