6 个月前

摘要

视频问答（Video Question Answering, VideoQA）是一项复杂的任务，其训练需要多样化的多模态数据。然而，对视频内容进行人工标注问题与答案的过程繁琐且难以扩展。为应对这一挑战，近期研究方法转向零样本（zero-shot）设置，即无需人工标注的视觉问答数据。其中一种有前景的方法是将预训练于大规模纯文本数据上的冻结自回归语言模型（autoregressive language models）适配至多模态输入。相比之下，本文基于冻结的双向语言模型（Bidirectional Language Models, BiLM），并证明该方法在零样本VideoQA任务中提供了一种更强大且成本更低的替代方案。具体而言，本文提出的方法具有以下三个关键步骤：（i）通过轻量级可训练模块将视觉输入与冻结的BiLM相结合；（ii）利用从网络抓取的多模态数据对这些可训练模块进行训练；（iii）在零样本推理阶段，通过掩码语言建模（masked language modeling）实现问答，其中被掩码的文本即为对应问题的答案。我们提出的模型名为FrozenBiLM，在多个基准数据集上——包括LSMDC-FiB、iVQA、MSRVTT-QA、MSVD-QA、ActivityNet-QA、TGIF-FrameQA、How2QA和TVQA——均显著超越现有最先进方法，在零样本VideoQA任务中展现出卓越性能。此外，该方法在少样本（few-shot）和全监督（fully-supervised）设置下也表现出具有竞争力的性能。相关代码与模型已公开发布于GitHub：https://github.com/antoyang/FrozenBiLM。

源 PDF