4 个月前

情境识别的基础方法

情境识别的基础方法

摘要

我们介绍了基于场景识别(Grounded Situation Recognition,简称GSR)的任务,该任务需要生成图像的结构化语义摘要,描述主要内容活动、参与该活动的实体及其角色(例如,行动者、工具),以及实体的边界框定位。GSR提出了重要的技术挑战:识别语义显著性、对大量且多样的实体进行分类和定位、克服语义稀疏性以及消除角色歧义。此外,与图像描述不同的是,GSR的评估较为直接。为了研究这一新任务,我们创建了带有边界框定位的情景数据集(Situations With Groundings,简称SWiG),该数据集在imsitu数据集中的11,538个实体类别上增加了278,336个边界框定位。我们提出了一种联合情景定位器模型,并发现通过端到端训练联合预测情景和定位明显优于独立训练,在整个定位度量套件中相对增益介于8%至32%之间。最后,我们展示了由我们的模型所支持的三个令人兴奋的未来方向的初步成果:条件查询、视觉链路和基于场景感知的图像检索。代码和数据可在https://prior.allenai.org/projects/gsr获取。

代码仓库

allenai/swig
pytorch
GitHub 中提及

基准测试

基准方法指标
grounded-situation-recognition-on-swigJSL
Top-1 Verb: 39.94
Top-1 Verb u0026 Grounded-Value: 24.86
Top-1 Verb u0026 Value: 31.44
Top-5 Verbs: 67.6
Top-5 Verbs u0026 Grounded-Value: 40.6
Top-5 Verbs u0026 Value: 51.88
grounded-situation-recognition-on-swigISL
Top-1 Verb: 39.36
Top-1 Verb u0026 Grounded-Value: 22.73
Top-1 Verb u0026 Value: 30.09
Top-5 Verbs: 65.51
Top-5 Verbs u0026 Grounded-Value: 36.6
Top-5 Verbs u0026 Value: 50.16
situation-recognition-on-imsituJSL
Top-1 Verb: 39.94
Top-1 Verb u0026 Value: 31.44
Top-5 Verbs: 67.6
Top-5 Verbs u0026 Value: 51.88
situation-recognition-on-imsituISL
Top-1 Verb: 39.36
Top-1 Verb u0026 Value: 30.09
Top-5 Verbs: 65.51
Top-5 Verbs u0026 Value: 50.16

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
情境识别的基础方法 | 论文 | HyperAI超神经