8 个月前

计算机视觉

自然语言处理

计算机视觉

Shreya Shukla Prajwal Gatti Yogesh Kumar Vikash Yadav Anand Mishra

摘要

计算机编程教科书和软件文档中经常包含流程图，以说明算法或程序的流程。现代光学字符识别（OCR）引擎通常将这些流程图标记为图形，并在后续处理中忽略它们。本文旨在通过将流程图图像转换为可执行的Python代码，使其成为机器可解释的形式。为此，我们受到近期自然语言到代码生成文献成功案例的启发，提出了一种基于 Transformer 的新框架——FloCo-T5。我们的模型非常适合这一任务，因为它能够有效地学习编程语言的语义、结构和模式，并利用这些知识生成语法正确的代码。此外，为了对这一问题进行严格的研究，我们使用了特定任务的预训练目标，利用大量逻辑保持的增强代码样本对FloCo-T5进行了预训练。进一步地，我们引入了包含11,884个流程图图像及其对应Python代码的FloCo数据集，以系统地研究该问题。实验结果表明，FloCo-T5在代码生成指标上明显优于相关的竞争基线模型。我们已将数据集和实现公开发布。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

计算机视觉

自然语言处理

计算机视觉

Shreya Shukla Prajwal Gatti Yogesh Kumar Vikash Yadav Anand Mishra

摘要

计算机编程教科书和软件文档中经常包含流程图，以说明算法或程序的流程。现代光学字符识别（OCR）引擎通常将这些流程图标记为图形，并在后续处理中忽略它们。本文旨在通过将流程图图像转换为可执行的Python代码，使其成为机器可解释的形式。为此，我们受到近期自然语言到代码生成文献成功案例的启发，提出了一种基于 Transformer 的新框架——FloCo-T5。我们的模型非常适合这一任务，因为它能够有效地学习编程语言的语义、结构和模式，并利用这些知识生成语法正确的代码。此外，为了对这一问题进行严格的研究，我们使用了特定任务的预训练目标，利用大量逻辑保持的增强代码样本对FloCo-T5进行了预训练。进一步地，我们引入了包含11,884个流程图图像及其对应Python代码的FloCo数据集，以系统地研究该问题。实验结果表明，FloCo-T5在代码生成指标上明显优于相关的竞争基线模型。我们已将数据集和实现公开发布。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供