
摘要
深度神经网络模型在训练和对未见数据进行推理时通常完全依赖归纳(inductive)方式。当这些模型用于预测时,可能难以捕捉数据集中重要的语义信息以及隐含的依赖关系。近期研究进展表明,在大规模视觉与语言任务中融合多种模态信息,能够显著提升模型的理解能力和泛化性能。然而,随着模型规模的扩大,即使仅针对少量下游任务,微调和部署过程也变得计算成本高昂。此外,在大规模且存在噪声的场景下,如何以支持反向传播的方式有效引入领域知识或先验模态知识,仍缺乏清晰的方法。为应对上述挑战,我们提出了一种简化方案:将预训练深度网络提取的特征与公开可获取的显式语义知识相结合。为了剔除与图像不匹配的无关显式知识,我们引入了一种隐式的可微分异常检测(Differentiable Out-of-Distribution, OOD)层。该层通过求解可微函数的固定点来实现异常检测,并利用固定点求解器的最终迭代结果进行反向传播,从而实现端到端的可训练性。在实际应用中,我们将该模型应用于多个视觉与语言下游任务,包括视觉问答(Visual Question Answering)、视觉推理(Visual Reasoning)以及在不同数据集上的图像-文本检索任务。实验结果表明,所提出的模型能够在显著减少样本数量和训练时间的前提下,达到与当前最先进方法相当甚至相近的性能表现。相关模型与代码已开源,欢迎查阅:https://github.com/ellenzhuwang/implicit_vkood
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| cross-modal-retrieval-on-coco-2014 | VK-OOD | Image-to-text R@1: 80.7 Image-to-text R@10: 96.8 Image-to-text R@5: 95.1 Text-to-image R@1: 62.9 Text-to-image R@10: 92.8 Text-to-image R@5: 84.8 |
| visual-question-answering-on-ok-vqa | VK-OOD | Accuracy: 52.4 |
| visual-question-answering-on-vqa-v2-test-dev | VK-OOD | Accuracy: 77.9 |
| visual-reasoning-on-nlvr2-dev | VK-OOD | Accuracy: 84.6 |
| zero-shot-cross-modal-retrieval-on-flickr30k | VK-OOD | Image-to-text R@1: 89.0 Image-to-text R@10: 99.8 Image-to-text R@5: 99.2 Text-to-image R@1: 77.2 Text-to-image R@10: 98.2 Text-to-image R@5: 94.3 |