6 个月前

多模态表征

Yikai Wang Xinghao Chen Lele Cao Wenbing Huang Fuchun Sun Yunhe Wang

摘要

为应对单模态视觉任务中Transformer架构的挑战，已有诸多改进方法被提出，其核心思想是通过堆叠自注意力模块来处理图像等输入数据。直观上，将多种模态的数据输入视觉Transformer有望提升性能，但不同模态间的注意力权重可能相互稀释，反而影响最终效果。为此，本文提出一种面向基于Transformer的视觉任务的多模态标记融合方法（TokenFusion）。为实现高效多模态融合，TokenFusion能够动态识别低信息量的标记，并用投影与聚合后的跨模态特征进行替换。同时，引入残差位置对齐机制，以显式保留融合后的跨模态对齐关系。该设计使Transformer能够学习多模态特征之间的关联性，同时保持单模态Transformer的原有架构结构基本不变。在多种同质与异质模态组合上的大量实验表明，TokenFusion在三项典型视觉任务中均优于当前最先进方法：多模态图像到图像转换、RGB-深度语义分割，以及基于点云与图像的3D目标检测。相关代码已开源，地址为：https://github.com/yikaiw/TokenFusion。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

多模态表征

Yikai Wang Xinghao Chen Lele Cao Wenbing Huang Fuchun Sun Yunhe Wang

摘要

为应对单模态视觉任务中Transformer架构的挑战，已有诸多改进方法被提出，其核心思想是通过堆叠自注意力模块来处理图像等输入数据。直观上，将多种模态的数据输入视觉Transformer有望提升性能，但不同模态间的注意力权重可能相互稀释，反而影响最终效果。为此，本文提出一种面向基于Transformer的视觉任务的多模态标记融合方法（TokenFusion）。为实现高效多模态融合，TokenFusion能够动态识别低信息量的标记，并用投影与聚合后的跨模态特征进行替换。同时，引入残差位置对齐机制，以显式保留融合后的跨模态对齐关系。该设计使Transformer能够学习多模态特征之间的关联性，同时保持单模态Transformer的原有架构结构基本不变。在多种同质与异质模态组合上的大量实验表明，TokenFusion在三项典型视觉任务中均优于当前最先进方法：多模态图像到图像转换、RGB-深度语义分割，以及基于点云与图像的3D目标检测。相关代码已开源，地址为：https://github.com/yikaiw/TokenFusion。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供