
摘要
为应对单模态视觉任务中Transformer架构的挑战,已有诸多改进方法被提出,其核心思想是通过堆叠自注意力模块来处理图像等输入数据。直观上,将多种模态的数据输入视觉Transformer有望提升性能,但不同模态间的注意力权重可能相互稀释,反而影响最终效果。为此,本文提出一种面向基于Transformer的视觉任务的多模态标记融合方法(TokenFusion)。为实现高效多模态融合,TokenFusion能够动态识别低信息量的标记,并用投影与聚合后的跨模态特征进行替换。同时,引入残差位置对齐机制,以显式保留融合后的跨模态对齐关系。该设计使Transformer能够学习多模态特征之间的关联性,同时保持单模态Transformer的原有架构结构基本不变。在多种同质与异质模态组合上的大量实验表明,TokenFusion在三项典型视觉任务中均优于当前最先进方法:多模态图像到图像转换、RGB-深度语义分割,以及基于点云与图像的3D目标检测。相关代码已开源,地址为:https://github.com/yikaiw/TokenFusion。
代码仓库
lyqcom/models-master
mindspore
robin-ex/TokenFusion
mindspore
yikaiw/TokenFusion
官方
pytorch
GitHub 中提及
harshm121/m3l
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 3d-object-detection-on-scannetv2 | TokenFusion | mAP@0.25: 70.8 mAP@0.5: 54.2 |
| 3d-object-detection-on-sun-rgbd-val | TokenFusion | mAP@0.25: 64.9 mAP@0.5: 48.3 |
| semantic-segmentation-on-deliver | TokenFusion (RGB-Depth) | mIoU: 60.25 |
| semantic-segmentation-on-deliver | TokenFusion (RGB-Event) | mIoU: 45.63 |
| semantic-segmentation-on-deliver | TokenFusion (RGB-LiDAR) | mIoU: 53.01 |
| semantic-segmentation-on-kitti-360 | TokenFusion (RGB-LiDAR) | mIoU: 54.55 |
| semantic-segmentation-on-kitti-360 | TokenFusion (RGB-Depth) | mIoU: 57.44 |
| semantic-segmentation-on-llrgbd-synthetic | TokenFusion (SegFormer-B2) | mIoU: 64.75 |
| semantic-segmentation-on-nyu-depth-v2 | TokenFusion (Ti) | Mean IoU: 53.3% |
| semantic-segmentation-on-nyu-depth-v2 | TokenFusion (S) | Mean IoU: 54.2% |
| semantic-segmentation-on-sun-rgbd | TokenFusion (S) | Mean IoU: 53.0% |
| semantic-segmentation-on-sun-rgbd | TokenFusion (Ti) | Mean IoU: 51.4% |