
摘要
计算机编程教科书和软件文档中经常包含流程图,以说明算法或程序的流程。现代光学字符识别(OCR)引擎通常将这些流程图标记为图形,并在后续处理中忽略它们。本文旨在通过将流程图图像转换为可执行的Python代码,使其成为机器可解释的形式。为此,我们受到近期自然语言到代码生成文献成功案例的启发,提出了一种基于变压器的新框架——FloCo-T5。我们的模型非常适合这一任务,因为它能够有效地学习编程语言的语义、结构和模式,并利用这些知识生成语法正确的代码。此外,为了对这一问题进行严格的研究,我们使用了特定任务的预训练目标,利用大量逻辑保持的增强代码样本对FloCo-T5进行了预训练。进一步地,我们引入了包含11,884个流程图图像及其对应Python代码的FloCo数据集,以系统地研究该问题。实验结果表明,FloCo-T5在代码生成指标上明显优于相关的竞争基线模型。我们已将数据集和实现公开发布。
代码仓库
vl2g/floco
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| code-generation-on-floco | FloCo-T5 | BLEU: 67.4 CodeBLEU: 75.7 |