
摘要
追踪机器学习领域的进展随着近期论文数量的激增变得越来越困难。在本文中,我们介绍了AxCell,一种用于从论文中提取结果的自动机器学习流水线。AxCell采用了若干创新组件,包括一个表格分割子任务,以学习有助于结果提取的相关结构知识。与现有方法相比,我们的方法显著提升了结果提取的最先进水平。此外,我们还发布了一个用于训练结果提取模型的结构化注释数据集,以及一个用于评估模型在此任务上性能的数据集。最后,我们展示了该方法的可行性,使其能够在生产环境中实现半自动的结果提取,这表明我们的改进首次使这一任务具有了实际应用的价值。代码已在GitHub上公开。科技/学术术语处理说明:- “machine learning” 译为“机器学习”- “pipeline” 译为“流水线”- “table segmentation” 译为“表格分割”- “state of the art” 译为“最先进水平”- “annotated dataset” 译为“注释数据集”- “performance evaluation” 译为“性能评估”
代码仓库
paperswithcode/axcell
官方
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| scientific-results-extraction-on-nlp-tdms-exp | AxCell | Macro F1: 19.7 Macro Precision: 20.2 Macro Recall: 20.6 Micro F1: 25.8 Micro Precision: 27.4 Micro Recall: 24.4 |
| scientific-results-extraction-on-pwc | AxCell | Macro F1: 21.1 Macro Precision: 24 Macro Recall: 21.8 Micro F1: 28.7 Micro Precision: 37.4 Micro Recall: 23.2 |