3 个月前

多模态侧调优用于文档分类

多模态侧调优用于文档分类

摘要

本文提出将侧向微调(side-tuning)框架应用于多模态文档分类任务。侧向微调是一种近期提出的新方法,旨在解决以往模型微调方法中存在的若干问题。得益于该技术,我们能够有效克服传统迁移学习中模型僵化以及灾难性遗忘等关键挑战。所提出的方案采用现成的深度学习架构,并结合侧向微调框架,将一个基础模型与两个并联的侧向网络相结合。实验结果表明,该方法在处理多种数据源(如文档分类中的文本与图像)时同样具有良好的适用性。相较于当前最优方法,该策略显著提升了文档分类的准确率,进一步推动了该领域性能的边界。

代码仓库

基准测试

基准方法指标
document-image-classification-on-rvl-cdipMultimodal (MobileNetV2)
Accuracy: 92.2%
Parameters: 12M
document-image-classification-on-rvl-cdipMultimodal (ResNet50)
Accuracy: 92.7%
Parameters: 57M
document-image-classification-on-tobacco-3482Multimodal Side-Tuning (ResNet50)
Accuracy: 90.30
document-image-classification-on-tobacco-3482Multimodal Side-Tuning (MobileNetV2)
Accuracy: 90.50

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
多模态侧调优用于文档分类 | 论文 | HyperAI超神经