6 个月前

多模态表征

卷积神经网络

Loris Bazzani Shaogang Gong Yanbei Chen

摘要

基于文本反馈的图像搜索在电子商务、互联网搜索等多个实际应用场景中展现出广阔的应用前景。给定一张参考图像及用户的文本反馈，其目标是检索出既与输入图像相似，又根据文本描述在某些方面发生相应变化的图像。这一任务极具挑战性，因为它要求模型对图像与文本信息进行协同理解。为此，本文提出一种新颖的视觉语言注意力学习（Visiolinguistic Attention Learning, VAL）框架来应对该问题。具体而言，我们设计了一种复合型Transformer结构，可无缝嵌入卷积神经网络（CNN）中，根据语言语义条件有选择性地保留并转换视觉特征。通过在不同网络深度处插入多个复合Transformer模块，VAL能够有效捕捉多层次粒度的视觉-语言联合信息，从而生成更具表现力的特征表示，显著提升图像搜索性能。我们在Fashion200k、Shoes和FashionIQ三个数据集上进行了全面评估。大量实验结果表明，所提模型在所有数据集上均优于现有方法，展现出在应对各类文本反馈（包括属性描述和自然语言描述）时的一致优越性。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

多模态表征

卷积神经网络

Loris Bazzani Shaogang Gong Yanbei Chen

摘要

基于文本反馈的图像搜索在电子商务、互联网搜索等多个实际应用场景中展现出广阔的应用前景。给定一张参考图像及用户的文本反馈，其目标是检索出既与输入图像相似，又根据文本描述在某些方面发生相应变化的图像。这一任务极具挑战性，因为它要求模型对图像与文本信息进行协同理解。为此，本文提出一种新颖的视觉语言注意力学习（Visiolinguistic Attention Learning, VAL）框架来应对该问题。具体而言，我们设计了一种复合型Transformer结构，可无缝嵌入卷积神经网络（CNN）中，根据语言语义条件有选择性地保留并转换视觉特征。通过在不同网络深度处插入多个复合Transformer模块，VAL能够有效捕捉多层次粒度的视觉-语言联合信息，从而生成更具表现力的特征表示，显著提升图像搜索性能。我们在Fashion200k、Shoes和FashionIQ三个数据集上进行了全面评估。大量实验结果表明，所提模型在所有数据集上均优于现有方法，展现出在应对各类文本反馈（包括属性描述和自然语言描述）时的一致优越性。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供