6 个月前

检索增强生成

监督式微调

Jiashuo Sun Hang Zhang Chen Lin Xiangdong Su Yeyun Gong Jian Guo

摘要

长篇金融分析中的数值推理旨在生成一个推理程序，以计算给定问题的正确答案。以往的研究多采用检索-生成框架：检索模块从长篇文档中筛选关键事实，生成模块则基于所检索的事实生成推理程序。然而，这些方法将所有事实视为同等重要，未区分含数值与不含数值事实的贡献差异。同时，在监督训练过程中忽略了程序的一致性，导致训练准确率和程序多样性较低。为解决上述问题，我们提出了APOLLO方法，以优化长篇数值推理框架。在检索模块中，我们引入一种基于数值感知的负采样策略，使检索器能够更精准地区分关键数值事实。在生成模块中，我们设计了基于程序执行结果一致性的强化学习机制，并结合目标程序增强策略，以提升生成程序的可靠性与多样性。在FinQA与ConvFinQA排行榜上的实验结果验证了所提方法的有效性，取得了新的最先进性能。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

检索增强生成

监督式微调

Jiashuo Sun Hang Zhang Chen Lin Xiangdong Su Yeyun Gong Jian Guo

摘要

长篇金融分析中的数值推理旨在生成一个推理程序，以计算给定问题的正确答案。以往的研究多采用检索-生成框架：检索模块从长篇文档中筛选关键事实，生成模块则基于所检索的事实生成推理程序。然而，这些方法将所有事实视为同等重要，未区分含数值与不含数值事实的贡献差异。同时，在监督训练过程中忽略了程序的一致性，导致训练准确率和程序多样性较低。为解决上述问题，我们提出了APOLLO方法，以优化长篇数值推理框架。在检索模块中，我们引入一种基于数值感知的负采样策略，使检索器能够更精准地区分关键数值事实。在生成模块中，我们设计了基于程序执行结果一致性的强化学习机制，并结合目标程序增强策略，以提升生成程序的可靠性与多样性。在FinQA与ConvFinQA排行榜上的实验结果验证了所提方法的有效性，取得了新的最先进性能。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

APOLLO：面向长文本数值推理的优化训练方法 | 论文 | HyperAI超神经