4 个月前

谁是沃尔多?文本和图像中的人物关联

谁是沃尔多?文本和图像中的人物关联

摘要

我们提出了一项人物中心的视觉定位任务及其基准数据集,旨在解决将图像说明中提到的人物与图像中展示的人物进行关联的问题。与以往主要基于对象的视觉定位研究不同,我们的新任务在图像说明中隐藏了人物的名字,以促使在此类图像-说明对上训练的方法更多关注上下文线索(如多人之间的丰富互动),而不是学习名字与外貌之间的关联。为了促进这一任务的研究,我们引入了一个名为“Who's Waldo”的新数据集,该数据集是从维基媒体公共库中的图像-说明数据自动挖掘而来的。我们提出了一种基于Transformer的方法,在这项任务上优于多个强大的基线模型,并将我们的数据集向研究社区开放,以推动考虑视觉和语言双重因素的上下文模型的发展。

代码仓库

clairecyq/whos-waldo
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
person-centric-visual-grounding-on-whos-waldoWho's Waldo
Accuracy: 63.5

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
谁是沃尔多?文本和图像中的人物关联 | 论文 | HyperAI超神经