
摘要
研究人员常通过图表在科技论文中传达丰富而复杂的信息,而图表的标题在有效传递信息方面起着至关重要的作用。然而,当前科技论文中普遍存在低质量的图表标题,这可能影响读者的理解。为此,本文提出了一种端到端的神经网络框架,用于自动生成信息丰富、高质量的科学图表标题。为支持该研究,我们构建了SCICAP——一个基于2010年至2020年间计算机科学领域arXiv论文的大规模图表-标题数据集。经过预处理(包括图表类型分类、子图识别、文本规范化及标题文本筛选),SCICAP最终包含了来自超过29万篇论文的逾两百万张图表。在此基础上,我们建立了针对图示类图表(占所有图表的19.2%,为主要类型)的基线标题生成模型。实验结果表明,尽管在科学图表自动标题生成方面展现出一定潜力,但仍面临严峻挑战。
代码仓库
tingyaohsu/scicap
官方
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| image-captioning-on-scicap | CNN+LSTM (Text only, Caption w/ <=100 words) | BLEU-4: 0.0165 |
| image-captioning-on-scicap | CNN+LSTM (Vision + Text, Caption w/ <=100 words) | BLEU-4: 0.0168 |
| image-captioning-on-scicap | CNN+LSTM (Vision only, Single-Sent Caption) | BLEU-4: 0.0207 |
| image-captioning-on-scicap | CNN+LSTM (Text only, Single-Sent Caption) | BLEU-4: 0.0212 |
| image-captioning-on-scicap | CNN+LSTM (Vision + Text, First sentence) | BLEU-4: 0.0205 |
| image-captioning-on-scicap | CNN+LSTM (Text only, First sentence) | BLEU-4: 0.0213 |
| image-captioning-on-scicap | CNN+LSTM (Vision only, First sentence) | BLEU-4: 0.0219 |
| image-captioning-on-scicap | CNN+LSTM (Vision only, Caption w/ <=100 words) | BLEU-4: 0.0172 |
| image-captioning-on-scicap | CNN+LSTM (Vision + Text, Single-Sent Caption) | BLEU-4: 0.0202 |