3 个月前

MiniF2F:面向形式化奥数级别数学的跨系统基准

MiniF2F:面向形式化奥数级别数学的跨系统基准

摘要

我们提出 miniF2F,这是一个面向形式化奥林匹克级别数学问题的语料库,旨在为神经定理证明提供一个统一的跨系统基准。当前,miniF2F 基准主要针对 Metamath、Lean、Isabelle(部分)以及 HOL Light(部分),包含 488 个问题陈述,其来源涵盖 AIME、AMC 和国际数学奥林匹克竞赛(IMO)题目,以及高中与本科阶段的数学课程内容。我们报告了基于 GPT-3 的神经定理证明器 GPT-f 的基线实验结果,并对其性能进行了分析。我们期望 miniF2F 成为一项由社区共同推动的协作项目,希望该基准能够推动神经定理证明领域的进一步发展。

代码仓库

rah4927/lean-dojo-mew
GitHub 中提及
facebookresearch/minif2f
GitHub 中提及
openai/minif2f
官方
GitHub 中提及
yangky11/minif2f-lean4
GitHub 中提及

基准测试

基准方法指标
automated-theorem-proving-on-minif2f-testLean GPT-f
ITP: Lean
Pass@1: 24.6
Pass@32: 29.2
cumulative: 29.2
automated-theorem-proving-on-minif2f-testLean tidy
ITP: Lean
Pass@1: 18
cumulative: 18
automated-theorem-proving-on-minif2f-testMetamath GPT-f
ITP: Metamath
Pass@1: 1.3
cumulative: 1.6
automated-theorem-proving-on-minif2f-validMetamath GPT-f
Pass@1: 1
Pass@8: 2
automated-theorem-proving-on-minif2f-validLean GPT-f
Pass@1: 23.9
Pass@8: 29.3
automated-theorem-proving-on-minif2f-validLean tidy
Pass@1: 16.8

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
MiniF2F:面向形式化奥数级别数学的跨系统基准 | 论文 | HyperAI超神经