3 个月前

利用多任务预训练提升真实水平自然语言解释的能力

利用多任务预训练提升真实水平自然语言解释的能力

摘要

自然语言解释(Natural Language Explanations, NLE)有望为复杂视觉-语言任务中神经网络的决策过程提供直观易懂的解释,这正是近期视觉-语言自然语言解释(VL-NLE)模型所致力于实现的目标。尽管现有模型在任务准确率和解释合理性方面表现出色,但仍面临诸多问题:部分模型采用模块化设计,导致解释生成模块与独立的任务答案预测模块之间整合度较低;一些模型基于有限任务集训练的主干网络,泛化能力受限;另有模型则通过针对特定数据集的临时性优化手段提升性能,缺乏普适性。为克服上述局限,我们提出将生成式Transformer模型在大规模多任务预训练方面的最新进展应用于VL-NLE任务。所提出的方法在性能上显著优于近期主流模型,在三项评估数据集中的两项中,人工标注者更偏好模型生成的解释,甚至超过真实标注的解释。作为VL-NLE研究中的一个新挑战,我们首次提出多任务VL-NLE问题,并实证表明,在多个任务上联合训练能够有效提升解释质量。此外,本文还探讨了高质量NLE生成所带来的伦理影响,以及当前VL-NLE研究中存在的其他关键问题,包括解释的可解释性边界、模型对训练数据的依赖性、以及生成内容的潜在偏见等,为未来该领域的发展提供了重要思考方向。

代码仓库

ofa-x/ofa-x
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
explanation-generation-on-e-snli-veOFA-X
Human Explanation Rating: 85.7
explanation-generation-on-e-snli-veOFA-X-MT
Human Explanation Rating: 80.4
explanation-generation-on-vcrOFA-X
Human Explanation Rating: 68.9
explanation-generation-on-vcrOFA-X-MT
Human Explanation Rating: 77.3
explanation-generation-on-vqa-xOFA-X
Human Explanation Rating: 89.5
explanation-generation-on-vqa-xOFA-X-MT
Human Explanation Rating: 87.8
visual-entailment-on-e-snli-veOFA-X
Accuracy: 80.9
visual-entailment-on-e-snli-veOFA-X-MT
Accuracy: 78.9
visual-question-answering-on-vcr-q-a-testOFA-X
Accuracy: 71.2
visual-question-answering-on-vcr-q-a-testOFA-X-MT
Accuracy: 62
visual-question-answering-on-vqa-xOFA-X
Accuracy: 91.2
visual-question-answering-on-vqa-xOFA-X-MT
Accuracy: 92.6

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
利用多任务预训练提升真实水平自然语言解释的能力 | 论文 | HyperAI超神经