3 个月前

基于区域的图神经网络实现高效文档图像分类

基于区域的图神经网络实现高效文档图像分类

摘要

文档图像分类仍是当前一个热门的研究领域,因其在多个行业中的企业级应用具备广泛的商业化潜力。近年来,大型预训练计算机视觉模型、语言模型以及图神经网络的发展,为文档图像分类提供了丰富的技术工具。然而,使用大型预训练模型通常需要大量计算资源,这在一定程度上削弱了自动化文档图像分类本应带来的成本优势。本文提出了一种高效且实用的文档图像分类框架,该框架结合图卷积神经网络(GCN),有效融合了文档的文本、视觉及版面布局信息。我们针对公开数据集以及真实场景下的保险文档分类数据集,对所提出的算法进行了严格的基准测试,对比了多种先进的视觉与语言模型。实验结果表明,在公开数据集和真实世界数据上,本方法均达到了接近当前最优(SOTA)的分类性能,同时显著降低了模型训练与推理所需的计算资源与时间开销。这一优势使得所提出的方法在企业级应用中具备更强的成本效益,尤其适用于大规模部署场景。结果还显示,本算法的分类性能可与现有最先进方法相媲美,差距极小。此外,本文系统性地对比了所提方法与基线模型在计算资源消耗、模型规模、训练与推理时间等方面的差异,并进一步量化了每张图像处理的单位成本,为实际应用中的资源规划与成本控制提供了有力支持。

基准测试

基准方法指标
document-image-classification-on-tobacco-3482DocBert [DOCBERT]
Accuracy: 91.95
document-image-classification-on-tobacco-3482Eff-GNN+ Word2Vec [word2vec]
Accuracy: 73.5
document-image-classification-on-tobacco-3482VGG
Memory: 7.08
document-image-classification-on-tobacco-3482Eff-GNN + Word2Vec [word2vec]
Accuracy: 91
document-image-classification-on-tobacco-3482Eff-GNN + Word2Vec [word2vec] + Image Embedding
Accuracy: 77.5
document-image-classification-on-tobacco-3482BERT [BERT]
Accuracy: 79
document-image-classification-on-tobacco-3482DocBERT [DOCBERT]
Accuracy: 82.3

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于区域的图神经网络实现高效文档图像分类 | 论文 | HyperAI超神经