3 个月前

视觉Transformer的多模态Token融合

视觉Transformer的多模态Token融合

摘要

为应对单模态视觉任务中Transformer架构的挑战,已有诸多改进方法被提出,其核心思想是通过堆叠自注意力模块来处理图像等输入数据。直观上,将多种模态的数据输入视觉Transformer有望提升性能,但不同模态间的注意力权重可能相互稀释,反而影响最终效果。为此,本文提出一种面向基于Transformer的视觉任务的多模态标记融合方法(TokenFusion)。为实现高效多模态融合,TokenFusion能够动态识别低信息量的标记,并用投影与聚合后的跨模态特征进行替换。同时,引入残差位置对齐机制,以显式保留融合后的跨模态对齐关系。该设计使Transformer能够学习多模态特征之间的关联性,同时保持单模态Transformer的原有架构结构基本不变。在多种同质与异质模态组合上的大量实验表明,TokenFusion在三项典型视觉任务中均优于当前最先进方法:多模态图像到图像转换、RGB-深度语义分割,以及基于点云与图像的3D目标检测。相关代码已开源,地址为:https://github.com/yikaiw/TokenFusion。

基准测试

基准方法指标
3d-object-detection-on-scannetv2TokenFusion
mAP@0.25: 70.8
mAP@0.5: 54.2
3d-object-detection-on-sun-rgbd-valTokenFusion
mAP@0.25: 64.9
mAP@0.5: 48.3
semantic-segmentation-on-deliverTokenFusion (RGB-Depth)
mIoU: 60.25
semantic-segmentation-on-deliverTokenFusion (RGB-Event)
mIoU: 45.63
semantic-segmentation-on-deliverTokenFusion (RGB-LiDAR)
mIoU: 53.01
semantic-segmentation-on-kitti-360TokenFusion (RGB-LiDAR)
mIoU: 54.55
semantic-segmentation-on-kitti-360TokenFusion (RGB-Depth)
mIoU: 57.44
semantic-segmentation-on-llrgbd-syntheticTokenFusion (SegFormer-B2)
mIoU: 64.75
semantic-segmentation-on-nyu-depth-v2TokenFusion (Ti)
Mean IoU: 53.3%
semantic-segmentation-on-nyu-depth-v2TokenFusion (S)
Mean IoU: 54.2%
semantic-segmentation-on-sun-rgbdTokenFusion (S)
Mean IoU: 53.0%
semantic-segmentation-on-sun-rgbdTokenFusion (Ti)
Mean IoU: 51.4%

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
视觉Transformer的多模态Token融合 | 论文 | HyperAI超神经