3 个月前

提示以获取解释能够提升对抗性自然语言推理(Adversarial NLI)的效果。这是真的。因为这种方法削弱了表面线索(superficial cues)。

提示以获取解释能够提升对抗性自然语言推理(Adversarial NLI)的效果。这是真的。因为这种方法削弱了表面线索(superficial cues)。

摘要

解释性提示(explanation prompts)要求语言模型不仅为给定输入分配特定标签(例如自然语言推理任务中的“正确”“蕴含”或“矛盾”),还需生成一段自由文本的解释以支持该标签。例如:“这是[标签],因为[解释]。”尽管此类提示最初提出的主要目的是提升模型的可解释性,但我们在此表明,解释性提示还能显著增强模型在自然语言推理基准测试中对对抗性扰动的鲁棒性。与仅要求输出标签的提示方式相比,采用解释性提示在对抗性基准测试中始终表现出更优的性能,在Adversarial Natural Language Inference(对抗性自然语言推理)、Counterfactually-Augmented Natural Language Inference(反事实增强型自然语言推理)以及SNLI-Hard数据集上均超越了当前最优水平。我们认为,这种鲁棒性提升的原因在于:要求模型生成解释会削弱其对表面线索(superficial cues)的依赖。具体而言,在仅输出标签的设定下,某些单个词元(token)可能高度预测正确答案,但在需要同时生成解释的情况下,这些词元的预测能力显著下降,从而促使模型关注更深层次的语义关联,增强了对对抗性干扰的抵抗能力。

基准测试

基准方法指标
natural-language-inference-on-anli-testT0-11B (explanation prompting)
A1: 75.6
A2: 60.6
A3: 59.9
natural-language-inference-on-anli-testT5-3B (explanation prompting)
A1: 81.8
A2: 72.5
A3: 74.8

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
提示以获取解释能够提升对抗性自然语言推理(Adversarial NLI)的效果。这是真的。因为这种方法削弱了表面线索(superficial cues)。 | 论文 | HyperAI超神经