3 个月前

深度多模态神经架构搜索

深度多模态神经架构搜索

摘要

在深度多模态学习中,设计高效的神经网络具有根本性意义。现有大多数方法通常聚焦于单一任务,采用人工方式设计神经网络架构,这类方法具有高度的任务特异性,难以泛化到不同任务。本文提出一种通用的深度多模态神经架构搜索(MMNAS)框架,适用于多种多模态学习任务。给定多模态输入后,我们首先定义一组基础操作,随后构建一个基于编码器-解码器结构的统一主干网络,其中每个编码器或解码器模块对应于从预定义操作池中搜索得到的一项操作。在此统一主干网络之上,我们接入针对具体任务的特定头结构,以应对不同的多模态学习任务。通过采用基于梯度的神经架构搜索算法,能够高效地学习适用于各类任务的最优网络结构。大量消融实验、全面的分析以及对比实验结果表明,所提出的MMNASNet在三个典型的多模态学习任务(覆盖五个数据集)上显著优于现有的最先进方法,包括视觉问答、图像-文本匹配和视觉定位任务。

代码仓库

MILVLG/mmnas
官方
pytorch

基准测试

基准方法指标
visual-question-answering-on-vqa-v2-test-stdSingle, w/o VLP
number: 58.62
other: 63.78
overall: 73.86
yes/no: 89.46

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供