4 个月前

CED:从文档中提取目录

CED:从文档中提取目录

摘要

从长文档中逐句提取信息是一项耗时且容易出错的任务。目录作为文档骨架的指示器,自然地将文档分段并提供有层次的信息语义,有助于缩小搜索范围。尽管目录非常有用,但在没有外部知识辅助的情况下很难提取。对于遵循特定模板的文档,正则表达式可以有效地提取目录。然而,手工编写的启发式规则在处理来自不同来源且格式多样的文档时并不适用。为了解决这一问题,我们构建了一个大规模的手动标注语料库,这是首个用于从文档中提取目录(Catalog Extraction from Documents, CED)任务的数据集。基于该语料库,我们提出了一种基于转换的框架来解析文档生成目录树。实验结果表明,我们的方法优于基线系统,并展示了良好的迁移能力。我们认为,CED任务可以在原始文本片段与极长文档的信息提取任务之间架起桥梁。数据和代码可在以下网址获取:\url{https://github.com/Spico197/CatalogExtraction}

代码仓库

spico197/catalogextraction
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
catalog-extraction-on-chcatextTRACER
F1: 82.39

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供