4 个月前

图像聊天:基于图像的互动对话

图像聊天:基于图像的互动对话

摘要

为了实现机器能够长期与人类进行对话的长远目标,我们的模型应当能够吸引其对话伙伴的兴趣。基于图像的交流(即根据给定的照片开展对话)是一种对人类具有天然吸引力的设置(Hu等,2014)。在本研究中,我们探讨了为此目标而设计的大规模架构和数据集。我们测试了一系列神经架构,使用最先进的图像和文本表示方法,并考虑了多种融合组件的方式。为了测试这些模型,我们收集了一个基于图像的人类对话数据集,在该数据集中,说话者被要求根据提供的特定情绪或风格扮演角色,因为使用这些特质也是提高对话吸引力的关键因素之一(Guo等,2019)。我们的数据集——Image-Chat——包含20.2万张图像上的20.2万次对话,涉及215种可能的风格特质。自动评估指标和人工评价结果显示了我们方法的有效性;特别是在现有的IGC任务中,我们取得了最先进水平的表现,并且在Image-Chat测试集上,我们表现最佳的模型几乎与人类持平(47.7%的时间被偏好)。

代码仓库

基准测试

基准方法指标
text-retrieval-on-image-chatTransResNet
R@1: 50.3
R@5: 75.4
Sum(R@1,5): 125.7

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
图像聊天:基于图像的互动对话 | 论文 | HyperAI超神经