
摘要
本文提出将侧向微调(side-tuning)框架应用于多模态文档分类任务。侧向微调是一种近期提出的新方法,旨在解决以往模型微调方法中存在的若干问题。得益于该技术,我们能够有效克服传统迁移学习中模型僵化以及灾难性遗忘等关键挑战。所提出的方案采用现成的深度学习架构,并结合侧向微调框架,将一个基础模型与两个并联的侧向网络相结合。实验结果表明,该方法在处理多种数据源(如文档分类中的文本与图像)时同样具有良好的适用性。相较于当前最优方法,该策略显著提升了文档分类的准确率,进一步推动了该领域性能的边界。
代码仓库
thezingaro/multimodal-side-tuning
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| document-image-classification-on-rvl-cdip | Multimodal (MobileNetV2) | Accuracy: 92.2% Parameters: 12M |
| document-image-classification-on-rvl-cdip | Multimodal (ResNet50) | Accuracy: 92.7% Parameters: 57M |
| document-image-classification-on-tobacco-3482 | Multimodal Side-Tuning (ResNet50) | Accuracy: 90.30 |
| document-image-classification-on-tobacco-3482 | Multimodal Side-Tuning (MobileNetV2) | Accuracy: 90.50 |