3 个月前

文档图像分类中的视觉与文本深度特征融合

文档图像分类中的视觉与文本深度特征融合

摘要

近年来,文本文档图像分类问题受到了广泛关注。大多数最新方法通过联合学习文档图像的视觉特征及其对应的文本内容来完成该任务。由于文档图像具有多样的结构形式,从其文本内容中提取语义信息,对于文档检索、信息抽取和文本分类等文档图像处理任务具有重要意义。本文提出了一种双流神经网络架构,用于实现文档图像分类。我们对当前广泛使用的多种神经网络模型以及词嵌入(word embedding)方法作为主干网络进行了系统性研究,以从文档图像中同时提取视觉特征与文本特征。此外,本文提出了一种结合图像特征与文本嵌入的联合特征学习方法,作为后期融合策略。理论分析与实验结果均表明,所提出的联合特征学习方法在性能上显著优于单一模态的方法。该联合学习方法在大规模RVL-CDIP数据集上取得了97.05%的分类准确率,超越了现有最先进水平。

基准测试

基准方法指标
document-image-classification-on-rvl-cdipCross-Modal
Accuracy: 97.05%
Parameters: 197M

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
文档图像分类中的视觉与文本深度特征融合 | 论文 | HyperAI超神经