HyperAIHyperAI

Command Palette

Search for a command to run...

利用多任务预训练提升真实水平自然语言解释的能力

Björn Plüster Jakob Ambsdorf Lukas Braach Jae Hee Lee Stefan Wermter

摘要

自然语言解释(Natural Language Explanations, NLE)有望为复杂视觉-语言任务中神经网络的决策过程提供直观易懂的解释,这正是近期视觉-语言自然语言解释(VL-NLE)模型所致力于实现的目标。尽管现有模型在任务准确率和解释合理性方面表现出色,但仍面临诸多问题:部分模型采用模块化设计,导致解释生成模块与独立的任务答案预测模块之间整合度较低;一些模型基于有限任务集训练的主干网络,泛化能力受限;另有模型则通过针对特定数据集的临时性优化手段提升性能,缺乏普适性。为克服上述局限,我们提出将生成式Transformer模型在大规模多任务预训练方面的最新进展应用于VL-NLE任务。所提出的方法在性能上显著优于近期主流模型,在三项评估数据集中的两项中,人工标注者更偏好模型生成的解释,甚至超过真实标注的解释。作为VL-NLE研究中的一个新挑战,我们首次提出多任务VL-NLE问题,并实证表明,在多个任务上联合训练能够有效提升解释质量。此外,本文还探讨了高质量NLE生成所带来的伦理影响,以及当前VL-NLE研究中存在的其他关键问题,包括解释的可解释性边界、模型对训练数据的依赖性、以及生成内容的潜在偏见等,为未来该领域的发展提供了重要思考方向。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供