8 个月前

多模态表征

Claire Yuqing Cui Apoorv Khandelwal Yoav Artzi Noah Snavely Hadar Averbuch-Elor

摘要

我们提出了一项人物中心的视觉定位任务及其基准数据集，旨在解决将图像说明中提到的人物与图像中展示的人物进行关联的问题。与以往主要基于对象的视觉定位研究不同，我们的新任务在图像说明中隐藏了人物的名字，以促使在此类图像-说明对上训练的方法更多关注上下文线索（如多人之间的丰富互动），而不是学习名字与外貌之间的关联。为了促进这一任务的研究，我们引入了一个名为“Who's Waldo”的新数据集，该数据集是从维基媒体公共库中的图像-说明数据自动挖掘而来的。我们提出了一种基于Transformer的方法，在这项任务上优于多个强大的基线模型，并将我们的数据集向研究社区开放，以推动考虑视觉和语言双重因素的上下文模型的发展。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

多模态表征

Claire Yuqing Cui Apoorv Khandelwal Yoav Artzi Noah Snavely Hadar Averbuch-Elor

摘要

我们提出了一项人物中心的视觉定位任务及其基准数据集，旨在解决将图像说明中提到的人物与图像中展示的人物进行关联的问题。与以往主要基于对象的视觉定位研究不同，我们的新任务在图像说明中隐藏了人物的名字，以促使在此类图像-说明对上训练的方法更多关注上下文线索（如多人之间的丰富互动），而不是学习名字与外貌之间的关联。为了促进这一任务的研究，我们引入了一个名为“Who's Waldo”的新数据集，该数据集是从维基媒体公共库中的图像-说明数据自动挖掘而来的。我们提出了一种基于Transformer的方法，在这项任务上优于多个强大的基线模型，并将我们的数据集向研究社区开放，以推动考虑视觉和语言双重因素的上下文模型的发展。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供