4 个月前

利用双向网络连接图像与文本

利用双向网络连接图像与文本

摘要

连接两个数据源是众多计算机视觉问题中的基本构建模块。典型相关分析(CCA)通过使用线性优化器来最大化两个视图之间的相关性,从而实现这一目标。近期的研究工作利用了非线性模型,包括深度学习技术,在某些特征空间中优化CCA损失。在本文中,我们提出了一种新颖的双向神经网络架构,用于匹配来自两个数据源的向量。我们的方法采用了两个绑定的神经网络通道,利用欧几里得损失将两个视图投影到一个共同的最大相关空间中。我们展示了基于相关性的损失与欧几里得损失之间的直接联系,使得可以使用欧几里得损失进行相关性最大化。为了解决常见的欧几里得回归优化问题,我们对已知的技术进行了修改以适应我们的任务,包括批归一化和dropout。我们在多个计算机视觉匹配任务上展示了最先进的结果,包括MNIST图像匹配以及在Flickr8k、Flickr30k和COCO数据集上的句子-图像匹配任务。

代码仓库

基准测试

基准方法指标
image-retrieval-on-flickr30k-1k-test2WayNet (VGG)
R@1: 36.0

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
利用双向网络连接图像与文本 | 论文 | HyperAI超神经