
摘要
自然语言解释(Natural Language Explanations, NLE)有望为复杂视觉-语言任务中神经网络的决策过程提供直观易懂的解释,这正是近期视觉-语言自然语言解释(VL-NLE)模型所致力于实现的目标。尽管现有模型在任务准确率和解释合理性方面表现出色,但仍面临诸多问题:部分模型采用模块化设计,导致解释生成模块与独立的任务答案预测模块之间整合度较低;一些模型基于有限任务集训练的主干网络,泛化能力受限;另有模型则通过针对特定数据集的临时性优化手段提升性能,缺乏普适性。为克服上述局限,我们提出将生成式Transformer模型在大规模多任务预训练方面的最新进展应用于VL-NLE任务。所提出的方法在性能上显著优于近期主流模型,在三项评估数据集中的两项中,人工标注者更偏好模型生成的解释,甚至超过真实标注的解释。作为VL-NLE研究中的一个新挑战,我们首次提出多任务VL-NLE问题,并实证表明,在多个任务上联合训练能够有效提升解释质量。此外,本文还探讨了高质量NLE生成所带来的伦理影响,以及当前VL-NLE研究中存在的其他关键问题,包括解释的可解释性边界、模型对训练数据的依赖性、以及生成内容的潜在偏见等,为未来该领域的发展提供了重要思考方向。
代码仓库
ofa-x/ofa-x
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| explanation-generation-on-e-snli-ve | OFA-X | Human Explanation Rating: 85.7 |
| explanation-generation-on-e-snli-ve | OFA-X-MT | Human Explanation Rating: 80.4 |
| explanation-generation-on-vcr | OFA-X | Human Explanation Rating: 68.9 |
| explanation-generation-on-vcr | OFA-X-MT | Human Explanation Rating: 77.3 |
| explanation-generation-on-vqa-x | OFA-X | Human Explanation Rating: 89.5 |
| explanation-generation-on-vqa-x | OFA-X-MT | Human Explanation Rating: 87.8 |
| visual-entailment-on-e-snli-ve | OFA-X | Accuracy: 80.9 |
| visual-entailment-on-e-snli-ve | OFA-X-MT | Accuracy: 78.9 |
| visual-question-answering-on-vcr-q-a-test | OFA-X | Accuracy: 71.2 |
| visual-question-answering-on-vcr-q-a-test | OFA-X-MT | Accuracy: 62 |
| visual-question-answering-on-vqa-x | OFA-X | Accuracy: 91.2 |
| visual-question-answering-on-vqa-x | OFA-X-MT | Accuracy: 92.6 |