6 个月前

多模态表征

计算机视觉

Xiaoxue Zang Lijuan Liu Maria Wang Yang Song Hao Zhang Jindong Chen

摘要

我们提出一个全新的真人对话数据集——PhotoChat，这是首个聚焦于在线消息交流中图片分享行为的公开数据集。PhotoChat包含12,000组对话，每组对话均配有一张在交流过程中实际分享的用户图片。基于该数据集，我们提出了两项任务，以推动图像-文本建模研究的发展：一是图片分享意图预测任务，旨在预测对话者在下一轮对话中是否有分享图片的意图；二是图片检索任务，即根据对话上下文从候选图片中检索最相关的一张。此外，针对这两项任务，我们采用当前最先进的模型构建了基线模型，并报告了其基准性能表现。其中，最优的图片检索模型在1000个候选图片中达到了10.4%的Recall@1指标，而最佳的图片分享意图预测模型则取得了58.1%的F1分数。这些结果表明，PhotoChat所呈现的问题既具有现实意义，又具备相当的挑战性。我们已公开发布PhotoChat数据集，以促进该领域未来的研究工作。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

多模态表征

计算机视觉

Xiaoxue Zang Lijuan Liu Maria Wang Yang Song Hao Zhang Jindong Chen

摘要

我们提出一个全新的真人对话数据集——PhotoChat，这是首个聚焦于在线消息交流中图片分享行为的公开数据集。PhotoChat包含12,000组对话，每组对话均配有一张在交流过程中实际分享的用户图片。基于该数据集，我们提出了两项任务，以推动图像-文本建模研究的发展：一是图片分享意图预测任务，旨在预测对话者在下一轮对话中是否有分享图片的意图；二是图片检索任务，即根据对话上下文从候选图片中检索最相关的一张。此外，针对这两项任务，我们采用当前最先进的模型构建了基线模型，并报告了其基准性能表现。其中，最优的图片检索模型在1000个候选图片中达到了10.4%的Recall@1指标，而最佳的图片分享意图预测模型则取得了58.1%的F1分数。这些结果表明，PhotoChat所呈现的问题既具有现实意义，又具备相当的挑战性。我们已公开发布PhotoChat数据集，以促进该领域未来的研究工作。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

PhotoChat：一个包含照片分享行为的人类对话数据集，用于联合图像-文本建模 | 论文 | HyperAI超神经