6 个月前

摘要

检索增强型语言模型（Retrieval-Augmented Language Models, RALMs）在构建事实准确、高效且实时更新的语言理解系统方面展现出巨大潜力。一个关键的设计要求是：当检索到的信息与问题相关时，应有助于提升模型性能；而当信息无关时，则不应损害模型表现。这一特性在多跳推理（multi-hop reasoning）场景中尤为重要，因为错误使用无关证据可能导致错误的级联传播。然而，近期研究表明，检索增强机制有时反而会降低模型性能。在本研究中，我们对五个开放域问答基准进行了全面分析，系统地刻画了检索导致准确率下降的具体情形。随后，我们提出了两种缓解该问题的方法。首先，提出一种简单基线方法：利用自然语言推理（Natural Language Inference, NLI）模型过滤掉与问题-答案对无蕴含关系的检索段落。该方法能有效防止性能下降，但同时也可能误删部分相关段落。为此，我们进一步提出一种自动数据生成方法，用于在训练阶段微调语言模型，使其能够恰当地利用检索到的文本信息。该方法在训练过程中混合使用相关与无关的上下文信息，从而提升模型对无关信息的鲁棒性。实验证明，仅需1,000个训练样本，即可使模型在面对无关上下文时保持稳健，同时在包含相关上下文的样本上仍维持高精度。

源 PDF