
摘要
长篇金融分析中的数值推理旨在生成一个推理程序,以计算给定问题的正确答案。以往的研究多采用检索-生成框架:检索模块从长篇文档中筛选关键事实,生成模块则基于所检索的事实生成推理程序。然而,这些方法将所有事实视为同等重要,未区分含数值与不含数值事实的贡献差异。同时,在监督训练过程中忽略了程序的一致性,导致训练准确率和程序多样性较低。为解决上述问题,我们提出了APOLLO方法,以优化长篇数值推理框架。在检索模块中,我们引入一种基于数值感知的负采样策略,使检索器能够更精准地区分关键数值事实。在生成模块中,我们设计了基于程序执行结果一致性的强化学习机制,并结合目标程序增强策略,以提升生成程序的可靠性与多样性。在FinQA与ConvFinQA排行榜上的实验结果验证了所提方法的有效性,取得了新的最先进性能。
代码仓库
gasolsun36/dynamicrag
pytorch
GitHub 中提及
gasolsun36/iter-cot
GitHub 中提及
gasolsun36/apollo
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| conversational-question-answering-on | APOLLO | Execution Accuracy: 78.76 Program Accuracy: 77.19 |
| question-answering-on-finqa | APOLLO | Execution Accuracy: 71.07 Program Accuracy: 68.94 |