6 个月前

Marcella Cornia Matteo Stefanini Lorenzo Baraldi Rita Cucchiara

摘要

基于Transformer的架构在机器翻译、语言理解等序列建模任务中已达到当前最先进水平。然而，其在图像字幕生成等多模态场景中的应用仍鲜有深入探索。为填补这一研究空白，本文提出M²——一种面向图像字幕生成的带记忆网格Transformer（Meshed Transformer with Memory）。该架构在图像编码与语言生成两个阶段均实现改进：一方面，通过融合学习到的先验知识，构建图像区域间多层次关系表示；另一方面，在解码阶段采用类网格的连接结构，有效利用低层与高层特征。实验结果表明，我们所提出的M² Transformer在与传统循环神经网络模型及其他全注意力模型的对比中展现出优越性能。在COCO数据集的“Karpathy”测试集以及在线测试服务器上，该模型在单模型与集成模型配置下均取得了新的最先进结果。此外，我们还评估了模型在描述训练集中未见物体时的表现。本文所训练的模型及复现实验的代码已公开发布于：https://github.com/aimagelab/meshed-memory-transformer。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

Marcella Cornia Matteo Stefanini Lorenzo Baraldi Rita Cucchiara

摘要

基于Transformer的架构在机器翻译、语言理解等序列建模任务中已达到当前最先进水平。然而，其在图像字幕生成等多模态场景中的应用仍鲜有深入探索。为填补这一研究空白，本文提出M²——一种面向图像字幕生成的带记忆网格Transformer（Meshed Transformer with Memory）。该架构在图像编码与语言生成两个阶段均实现改进：一方面，通过融合学习到的先验知识，构建图像区域间多层次关系表示；另一方面，在解码阶段采用类网格的连接结构，有效利用低层与高层特征。实验结果表明，我们所提出的M² Transformer在与传统循环神经网络模型及其他全注意力模型的对比中展现出优越性能。在COCO数据集的“Karpathy”测试集以及在线测试服务器上，该模型在单模型与集成模型配置下均取得了新的最先进结果。此外，我们还评估了模型在描述训练集中未见物体时的表现。本文所训练的模型及复现实验的代码已公开发布于：https://github.com/aimagelab/meshed-memory-transformer。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供