3 个月前

用于神经定理证明的HyperTree Proof Search

用于神经定理证明的HyperTree Proof Search

摘要

我们提出了一种基于Transformer架构的自动化定理证明器的在线训练方法。该方法引入了一种受AlphaZero近期成功启发的新搜索算法——超树证明搜索(HyperTree Proof Search, HTPS)。通过在线训练,模型能够从过往的证明搜索过程中持续学习,从而具备在远超训练数据分布的领域中进行泛化的能力。我们通过对三个复杂度逐步提升的环境进行详细消融实验,评估了该流水线主要组件的性能表现。特别地,我们发现仅使用HTPS算法,即使在仅用带注释的证明数据进行训练的情况下,模型也能成功证明65.4%的Metamath定理保留集,显著优于此前由GPT-f达到的56.5%的最先进水平。进一步在未证明定理上进行在线训练后,准确率提升至82.6%。在相近的计算资源预算下,我们在基于Lean的miniF2F课程数据集上的定理证明准确率也从31%提升至42%,实现了该任务上的显著性能突破。

基准测试

基准方法指标
automated-theorem-proving-on-metamath-setmmEvariste
Pass@32: 72.4
automated-theorem-proving-on-minif2f-1Evariste
Pass@64: 32.1
automated-theorem-proving-on-minif2f-1Evariste-1d
Pass@64: 33.6
automated-theorem-proving-on-minif2f-1GPT-f
Pass@64: 30.6
automated-theorem-proving-on-minif2f-1Evariste-7d
Pass@64: 42.5
automated-theorem-proving-on-minif2f-testEvariste
ITP: Lean
Pass@64: 41
cumulative: 41
automated-theorem-proving-on-minif2f-testGPT-f
ITP: Metamath
Pass@64: 36.6
cumulative: 36.6
automated-theorem-proving-on-minif2f-testEvariste-1d
ITP: Lean
Pass@64: 38.9
cumulative: 38.9
automated-theorem-proving-on-minif2f-testEvariste-7d
ITP: Lean
Pass@64: 40.6
cumulative: 40.6
automated-theorem-proving-on-minif2f-validGPT-f
Pass@64: 47.3
automated-theorem-proving-on-minif2f-validEvariste-1d
Pass@64: 46.7
automated-theorem-proving-on-minif2f-validEvariste-7d
Pass@64: 47.5
automated-theorem-proving-on-minif2f-validEvariste
Pass@64: 58.6

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
用于神经定理证明的HyperTree Proof Search | 论文 | HyperAI超神经