
摘要
近年来,预训练多模态大模型因其在各类多模态应用中表现出色而受到广泛关注。然而,其训练过程所需的巨大计算资源和海量数据集,给计算资源受限环境下的部署带来了显著挑战。为应对这一难题,本文首次提出一种新型的动态自适应多尺度知识蒸馏方法,用于高效实现跨模态表示学习,该方法基于预训练多模态大模型进行知识迁移。与现有蒸馏方法不同,我们的策略引入多尺度视角,能够从预训练大模型中提取结构化知识,确保学生模型充分继承教师模型全面且细致的理解能力。为进一步实现各蒸馏损失项在优化过程中的均衡与高效调整,我们设计了一种动态自适应蒸馏损失平衡器,该新颖组件无需人工调节损失权重,可在蒸馏过程中自动动态平衡各项损失。本方法仅利用预训练大模型的输出特征与原始图像级信息进行模型精简,计算开销极低,具有高度的资源效率。该高效框架适用于多种应用场景,使得先进多模态技术即使在资源受限的环境下也能顺利部署。大量实验结果表明,所提方法在显著降低模型复杂度与训练成本的同时,仍能保持优异的性能表现。此外,所蒸馏的学生模型仅依赖图像级信息,即可在跨模态检索任务中达到当前最优性能,超越以往依赖区域级信息的方法。
代码仓库
chrisx599/dsmd
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| cross-modal-retrieval-on-coco-2014 | DSMD | Image-to-text R@1: 48.0 Image-to-text R@10: 84.5 Image-to-text R@5: 75.6 Text-to-image R@1: 62.1 Text-to-image R@10: 92.0 Text-to-image R@5: 85.9 |
| cross-modal-retrieval-on-flickr30k | DSMD | Image-to-text R@1: 82.5 Image-to-text R@10: 97.7 Image-to-text R@5: 95.5 Text-to-image R@1: 68.4 Text-to-image R@10: 94.4 Text-to-image R@5: 90.8 |