3 个月前

EAML:基于集成自注意力机制的互学习网络用于文档图像分类

EAML:基于集成自注意力机制的互学习网络用于文档图像分类

摘要

近年来,复杂的深度神经网络在文档理解任务中受到广泛关注,例如文档图像分类与文档检索。由于多种文档类型具有独特的视觉风格,仅依靠深度卷积神经网络(CNN)学习视觉特征来进行文档图像分类,往往面临类别间区分度低、同一类别内部结构差异大的问题。与此同时,将文本层面的理解与文档图像中相应的视觉特征联合学习,显著提升了分类任务的准确率。本文提出一种基于自注意力机制的融合模块,作为集成可训练网络中的一个核心组件。该模块能够在训练过程中同步学习图像与文本模态的判别性特征。此外,我们通过在训练阶段实现图像与文本模态之间的正向知识迁移,促进两者之间的相互学习。这一约束通过引入一种新的正则化项——截断型Kullback-Leibler散度损失(Tr-KLD-Reg),嵌入传统的监督学习框架中得以实现。据我们所知,这是首次将相互学习机制与基于自注意力的融合模块相结合,用于文档图像分类任务。实验结果表明,所提出的方法在单模态与多模态设置下均显著提升了分类准确率。因此,所提出的集成式自注意力相互学习模型在基准数据集RVL-CDIP和Tobacco-3482上的分类性能优于现有最先进方法。

基准测试

基准方法指标
document-image-classification-on-rvl-cdipEAML
Accuracy: 97.70%

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
EAML:基于集成自注意力机制的互学习网络用于文档图像分类 | 论文 | HyperAI超神经