3 个月前

情景识别:用于图像理解的视觉语义角色标注

情景识别:用于图像理解的视觉语义角色标注

摘要

本文提出了“情境识别”(situation recognition)这一问题,即对图像所描绘的情境生成一个简洁而全面的摘要,涵盖以下三个方面:(1)主要活动(例如剪羊毛);(2)参与的主体、物体、物质及地点(例如:男子、剪刀、羊、羊毛和田野);尤为重要的是(3)这些参与者在活动中所扮演的角色(例如:男子正在剪羊毛,剪刀是他的工具,羊毛正从羊身上被剪下,且整个剪羊毛过程发生在田野中)。为定义大量可能的情境空间,本文采用由语言学家构建的语义框架词典 FrameNet,作为动词与角色的词汇资源。基于此,研究构建了一个大规模数据集,包含超过500种活动、1,700种角色、11,000种物体、125,000张图像以及200,000种独特情境。此外,本文还提出了结构化预测的基线方法,并验证了在以活动为中心的图像中,基于情境驱动的对象与活动预测性能,显著优于独立进行的对象识别与活动识别方法。

基准测试

基准方法指标
grounded-situation-recognition-on-swigCRF
Top-1 Verb: 32.34
Top-1 Verb u0026 Value: 24.64
Top-5 Verbs: 58.88
Top-5 Verbs u0026 Value: 42.76
situation-recognition-on-imsituCRF
Top-1 Verb: 32.34
Top-1 Verb u0026 Value: 24.64
Top-5 Verbs: 58.88
Top-5 Verbs u0026 Value: 42.76

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
情景识别:用于图像理解的视觉语义角色标注 | 论文 | HyperAI超神经