6 个月前

计算机视觉

Luke Zettlemoyer Ali Farhadi Mark Yatskar

摘要

本文提出了“情境识别”（situation recognition）这一问题，即对图像所描绘的情境生成一个简洁而全面的摘要，涵盖以下三个方面：（1）主要活动（例如剪羊毛）；（2）参与的主体、物体、物质及地点（例如：男子、剪刀、羊、羊毛和田野）；尤为重要的是（3）这些参与者在活动中所扮演的角色（例如：男子正在剪羊毛，剪刀是他的工具，羊毛正从羊身上被剪下，且整个剪羊毛过程发生在田野中）。为定义大量可能的情境空间，本文采用由语言学家构建的语义框架词典 FrameNet，作为动词与角色的词汇资源。基于此，研究构建了一个大规模数据集，包含超过500种活动、1,700种角色、11,000种物体、125,000张图像以及200,000种独特情境。此外，本文还提出了结构化预测的基线方法，并验证了在以活动为中心的图像中，基于情境驱动的对象与活动预测性能，显著优于独立进行的对象识别与活动识别方法。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

计算机视觉

Luke Zettlemoyer Ali Farhadi Mark Yatskar

摘要

本文提出了“情境识别”（situation recognition）这一问题，即对图像所描绘的情境生成一个简洁而全面的摘要，涵盖以下三个方面：（1）主要活动（例如剪羊毛）；（2）参与的主体、物体、物质及地点（例如：男子、剪刀、羊、羊毛和田野）；尤为重要的是（3）这些参与者在活动中所扮演的角色（例如：男子正在剪羊毛，剪刀是他的工具，羊毛正从羊身上被剪下，且整个剪羊毛过程发生在田野中）。为定义大量可能的情境空间，本文采用由语言学家构建的语义框架词典 FrameNet，作为动词与角色的词汇资源。基于此，研究构建了一个大规模数据集，包含超过500种活动、1,700种角色、11,000种物体、125,000张图像以及200,000种独特情境。此外，本文还提出了结构化预测的基线方法，并验证了在以活动为中心的图像中，基于情境驱动的对象与活动预测性能，显著优于独立进行的对象识别与活动识别方法。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

情景识别：用于图像理解的视觉语义角色标注 | 论文 | HyperAI超神经