
摘要
本文介绍了DAGOBAH系统在表格自动预处理与语义解析方面的最新改进。特别地,得益于查找机制的优化以及针对目标知识图谱中节点上下文分析的新技术,我们在SemTab 2021挑战赛中取得了令人鼓舞的成果。此外,本文还介绍了DAGOBAH算法在Orange公司内部的部署情况,通过TableAnnotation API及前端DAGOBAH用户界面两种方式实现接入。这两种访问途径有效加速了语义表格解析解决方案在企业内部的推广应用,以满足工业应用的实际需求。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| cell-entity-annotation-on-biodivtab | DAGOBAH | F1 (%): 62 |
| cell-entity-annotation-on-toughtables-dbp | DAGOBAH | F1 (%): 94.5 |
| cell-entity-annotation-on-toughtables-wd | DAGOBAH | F1 (%): 92.3 |
| column-type-annotation-on-biodivtab | DAGOBAH | F1 (%): 34.4 |
| column-type-annotation-on-gittables-semtab | DAGOBAH | F1 (%): 7.00 |
| column-type-annotation-on-gittables-semtab-1 | DAGOBAH | F1 (%): 18.3 |
| column-type-annotation-on-toughtables-dbp | DAGOBAH | F1 (%): 42.2 |
| column-type-annotation-on-toughtables-wd | DAGOBAH | F1 (%): 83.2 |