6 个月前

摘要

解释性提示（explanation prompts）要求语言模型不仅为给定输入分配特定标签（例如自然语言推理任务中的“正确”“蕴含”或“矛盾”），还需生成一段自由文本的解释以支持该标签。例如：“这是[标签]，因为[解释]。”尽管此类提示最初提出的主要目的是提升模型的可解释性，但我们在此表明，解释性提示还能显著增强模型在自然语言推理基准测试中对对抗性扰动的鲁棒性。与仅要求输出标签的提示方式相比，采用解释性提示在对抗性基准测试中始终表现出更优的性能，在Adversarial Natural Language Inference（对抗性自然语言推理）、Counterfactually-Augmented Natural Language Inference（反事实增强型自然语言推理）以及SNLI-Hard数据集上均超越了当前最优水平。我们认为，这种鲁棒性提升的原因在于：要求模型生成解释会削弱其对表面线索（superficial cues）的依赖。具体而言，在仅输出标签的设定下，某些单个词元（token）可能高度预测正确答案，但在需要同时生成解释的情况下，这些词元的预测能力显著下降，从而促使模型关注更深层次的语义关联，增强了对对抗性干扰的抵抗能力。

源 PDF