3 个月前

APOLLO:面向长文本数值推理的优化训练方法

APOLLO:面向长文本数值推理的优化训练方法

摘要

长篇金融分析中的数值推理旨在生成一个推理程序,以计算给定问题的正确答案。以往的研究多采用检索-生成框架:检索模块从长篇文档中筛选关键事实,生成模块则基于所检索的事实生成推理程序。然而,这些方法将所有事实视为同等重要,未区分含数值与不含数值事实的贡献差异。同时,在监督训练过程中忽略了程序的一致性,导致训练准确率和程序多样性较低。为解决上述问题,我们提出了APOLLO方法,以优化长篇数值推理框架。在检索模块中,我们引入一种基于数值感知的负采样策略,使检索器能够更精准地区分关键数值事实。在生成模块中,我们设计了基于程序执行结果一致性的强化学习机制,并结合目标程序增强策略,以提升生成程序的可靠性与多样性。在FinQA与ConvFinQA排行榜上的实验结果验证了所提方法的有效性,取得了新的最先进性能。

代码仓库

gasolsun36/dynamicrag
pytorch
GitHub 中提及
gasolsun36/iter-cot
GitHub 中提及
gasolsun36/apollo
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
conversational-question-answering-onAPOLLO
Execution Accuracy: 78.76
Program Accuracy: 77.19
question-answering-on-finqaAPOLLO
Execution Accuracy: 71.07
Program Accuracy: 68.94

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
APOLLO:面向长文本数值推理的优化训练方法 | 论文 | HyperAI超神经