4 个月前

弥合DETR与R-CNN在文档图像中图形对象检测性能的差距

弥合DETR与R-CNN在文档图像中图形对象检测性能的差距

摘要

本文在弥合DETR与R-CNN在图形对象检测性能上的差距方面迈出了重要一步。现有的图形对象检测方法受益于基于卷积神经网络(CNN)的对象检测技术的最新改进,取得了显著进展。最近,基于Transformer的检测器大幅提升了通用对象检测的性能,消除了对手工设计特征或诸如非极大值抑制(Non-Maximum Suppression, NMS)等后处理步骤的需求,通过使用对象查询实现这一目标。然而,这些增强的基于Transformer的检测算法在图形对象检测问题上的有效性尚未得到验证。受DETR最新进展的启发,我们对现有的检测Transformer进行了少量修改,应用于图形对象检测。我们以不同的方式修改了对象查询,包括使用点、锚框以及向锚框添加正负噪声,以提升性能。这些修改使得模型能够更好地处理不同大小和长宽比的对象,提高对对象位置和大小微小变化的鲁棒性,并改善图像中对象与非对象之间的区分能力。我们在四个图形数据集上评估了我们的方法:PubTables、TableBank、NTable和PubLaynet。通过在DETR中集成查询修改,我们在这些数据集上超越了先前的工作,并分别在TableBank、PubLaynet和PubTables上实现了96.9%、95.7%和99.3%的平均精度均值(mAP)。广泛的消融实验结果表明,基于Transformer的方法在文档分析中的效果类似于其他应用领域。我们希望这项研究能够吸引更多关注到使用检测Transformer进行文档图像分析的研究中来。

基准测试

基准方法指标
document-layout-analysis-on-publaynet-valDETR
Figure: 0.975
List: 0.964
Overall: 0.957
Table: 0.981
Text: 0.947
Title: 0.918

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
弥合DETR与R-CNN在文档图像中图形对象检测性能的差距 | 论文 | HyperAI超神经