3 个月前

GeminiFusion:面向视觉Transformer的高效像素级多模态融合

GeminiFusion:面向视觉Transformer的高效像素级多模态融合

摘要

跨模态Transformer在多种视觉任务中展现出卓越性能,通过有效融合不同模态信息实现了显著提升。本文首先对先前的token交换方法进行了批判性分析,指出这些方法通过用跨模态特征替换信息量较低的token来实现融合,然而实验表明,基于交换的策略在性能上仍逊于跨注意力机制(cross-attention)。尽管跨注意力机制具有更强的表达能力,但其固有的高计算开销限制了其在长序列输入场景下的应用。为克服这一计算瓶颈,本文提出GeminiFusion,一种基于像素级融合的新型方法,充分利用对齐的跨模态表示。GeminiFusion巧妙地结合了模内注意力(intra-modal attention)与模间注意力(inter-modal attention),动态整合各模态间的互补信息。我们引入层自适应噪声(layer-adaptive noise),在每一层上自适应调控两种注意力机制的交互强度,从而实现融合过程的协同优化。值得注意的是,GeminiFusion在输入token数量上保持线性时间复杂度,使得该多模态框架的运行效率可与单模态网络相媲美。在多模态图像到图像转换、3D目标检测以及任意模态语义分割等任务上的全面实验验证了GeminiFusion的优越性能,涵盖RGB、深度图、LiDAR、事件数据等多种模态。相关PyTorch代码已开源,地址为:https://github.com/JiaDingCN/GeminiFusion。

代码仓库

jiadingcn/geminifusion
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
semantic-segmentation-on-deliverGeminiFusion
mIoU: 66.9
semantic-segmentation-on-deliver-1GeminiFusion
mIoU: 66.9
semantic-segmentation-on-nyu-depth-v2GeminiFusion (Swin-Large)
Mean IoU: 60.9
semantic-segmentation-on-nyu-depth-v2GeminiFusion (MiT-B3)
Mean IoU: 56.8
semantic-segmentation-on-nyu-depth-v2GeminiFusion (MiT-B5)
Mean IoU: 57.7
semantic-segmentation-on-nyu-depth-v2GeminiFusion (Swin-Large)
Mean IoU: 60.2
semantic-segmentation-on-sun-rgbdGeminiFusion (MiT-B5)
Mean IoU: 53.3
semantic-segmentation-on-sun-rgbdGeminiFusion (Swin-Large)
Mean IoU: 54.6
semantic-segmentation-on-sun-rgbdGeminiFusion (MiT-B3)
Mean IoU: 52.7

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
GeminiFusion:面向视觉Transformer的高效像素级多模态融合 | 论文 | HyperAI超神经