3 个月前

基于注意力机制的上下文感知推理用于情境识别

基于注意力机制的上下文感知推理用于情境识别

摘要

情境识别(Situation Recognition, SR)是一项细粒度的动作识别任务,要求模型不仅能够预测图像中的显著动作,还需准确预测该动作所涉及的所有语义角色(semantic roles)的取值。语义角色预测极具挑战性:每个语义角色可能对应极为丰富的潜在匹配项。现有研究主要聚焦于依赖关系建模架构以应对这一难题。受基于查询的视觉推理(如视觉问答,Visual Question Answering)取得成功的启发,我们提出将语义角色预测建模为一个基于查询的视觉推理问题。然而,现有的基于查询的推理方法尚未考虑查询之间的相互依赖性,而这正是情境识别任务中语义角色预测所特有的关键需求。因此,据我们所知,本文首次提出了一套专门用于处理查询间依赖关系的基于查询的视觉推理方法。大量实验结果表明,所提出方法在情境识别任务上取得了卓越性能。此外,通过有效利用查询间的相互依赖性,我们的方法在性能上超越了现有最先进的独立处理各查询的推理模型。项目代码已开源:https://github.com/thilinicooray/context-aware-reasoning-for-sr

基准测试

基准方法指标
grounded-situation-recognition-on-swigCAQ + RE-VGG
Top-1 Verb: 38.19
Top-1 Verb u0026 Value: 30.23
Top-5 Verbs: 65.05
Top-5 Verbs u0026 Value: 50.21
situation-recognition-on-imsituCAQ + RE-VGG
Top-1 Verb: 38.19
Top-1 Verb u0026 Value: 30.23
Top-5 Verbs: 65.05
Top-5 Verbs u0026 Value: 50.21

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于注意力机制的上下文感知推理用于情境识别 | 论文 | HyperAI超神经