
摘要
网页信息提取(WIE)是创建知识库的重要步骤。传统的方法利用网站的文档对象模型(DOM)树来实现这一目标。然而,DOM树的使用带来了显著的挑战,因为上下文和外观是以抽象的方式编码的。为了解决这一问题,我们提出将WIE重新定义为一种具有上下文感知能力的网页对象检测任务。具体而言,我们开发了一种基于上下文感知视觉注意力(CoVA)的检测流程,该流程结合了外观特征和DOM树中的语法结构。为了研究这种方法,我们收集了一个新的大规模电子商务网站数据集,并手动为每个网页元素标注了四个标签:产品价格、产品标题、产品图像和背景。在该数据集上,我们展示了所提出的CoVA方法是一种新的具有挑战性的基准方法,其性能优于先前的最先进方法。
代码仓库
kevalmorabia97/cova-web-object-detection
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| webpage-object-detection-on-cova | CoVA++ | Cross Domain Image Accuracy: 99.6 Cross Domain Price Accuracy: 96.1 Cross Domain Title Accuracy: 96.7 |
| webpage-object-detection-on-cova | CoVA | Cross Domain Image Accuracy: 98.8 Cross Domain Price Accuracy: 95.5 Cross Domain Title Accuracy: 95.7 |