3 个月前

PhotoChat:一个包含照片分享行为的人类对话数据集,用于联合图像-文本建模

PhotoChat:一个包含照片分享行为的人类对话数据集,用于联合图像-文本建模

摘要

我们提出一个全新的真人对话数据集——PhotoChat,这是首个聚焦于在线消息交流中图片分享行为的公开数据集。PhotoChat包含12,000组对话,每组对话均配有一张在交流过程中实际分享的用户图片。基于该数据集,我们提出了两项任务,以推动图像-文本建模研究的发展:一是图片分享意图预测任务,旨在预测对话者在下一轮对话中是否有分享图片的意图;二是图片检索任务,即根据对话上下文从候选图片中检索最相关的一张。此外,针对这两项任务,我们采用当前最先进的模型构建了基线模型,并报告了其基准性能表现。其中,最优的图片检索模型在1000个候选图片中达到了10.4%的Recall@1指标,而最佳的图片分享意图预测模型则取得了58.1%的F1分数。这些结果表明,PhotoChat所呈现的问题既具有现实意义,又具备相当的挑战性。我们已公开发布PhotoChat数据集,以促进该领域未来的研究工作。

基准测试

基准方法指标
image-retrieval-on-photochatDE++
R1: 9.0
R@10: 35.7
R@5: 26.4
Sum(R@1,5,10): 71.1

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
PhotoChat:一个包含照片分享行为的人类对话数据集,用于联合图像-文本建模 | 论文 | HyperAI超神经