HyperAIHyperAI

Command Palette

Search for a command to run...

视觉Transformer的多模态Token融合

Yikai Wang Xinghao Chen Lele Cao Wenbing Huang Fuchun Sun Yunhe Wang

摘要

为应对单模态视觉任务中Transformer架构的挑战,已有诸多改进方法被提出,其核心思想是通过堆叠自注意力模块来处理图像等输入数据。直观上,将多种模态的数据输入视觉Transformer有望提升性能,但不同模态间的注意力权重可能相互稀释,反而影响最终效果。为此,本文提出一种面向基于Transformer的视觉任务的多模态标记融合方法(TokenFusion)。为实现高效多模态融合,TokenFusion能够动态识别低信息量的标记,并用投影与聚合后的跨模态特征进行替换。同时,引入残差位置对齐机制,以显式保留融合后的跨模态对齐关系。该设计使Transformer能够学习多模态特征之间的关联性,同时保持单模态Transformer的原有架构结构基本不变。在多种同质与异质模态组合上的大量实验表明,TokenFusion在三项典型视觉任务中均优于当前最先进方法:多模态图像到图像转换、RGB-深度语义分割,以及基于点云与图像的3D目标检测。相关代码已开源,地址为:https://github.com/yikaiw/TokenFusion


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供