3 个月前

零样本视频问答通过冻结的双向语言模型

零样本视频问答通过冻结的双向语言模型

摘要

视频问答(Video Question Answering, VideoQA)是一项复杂的任务,其训练需要多样化的多模态数据。然而,对视频内容进行人工标注问题与答案的过程繁琐且难以扩展。为应对这一挑战,近期研究方法转向零样本(zero-shot)设置,即无需人工标注的视觉问答数据。其中一种有前景的方法是将预训练于大规模纯文本数据上的冻结自回归语言模型(autoregressive language models)适配至多模态输入。相比之下,本文基于冻结的双向语言模型(Bidirectional Language Models, BiLM),并证明该方法在零样本VideoQA任务中提供了一种更强大且成本更低的替代方案。具体而言,本文提出的方法具有以下三个关键步骤:(i)通过轻量级可训练模块将视觉输入与冻结的BiLM相结合;(ii)利用从网络抓取的多模态数据对这些可训练模块进行训练;(iii)在零样本推理阶段,通过掩码语言建模(masked language modeling)实现问答,其中被掩码的文本即为对应问题的答案。我们提出的模型名为FrozenBiLM,在多个基准数据集上——包括LSMDC-FiB、iVQA、MSRVTT-QA、MSVD-QA、ActivityNet-QA、TGIF-FrameQA、How2QA和TVQA——均显著超越现有最先进方法,在零样本VideoQA任务中展现出卓越性能。此外,该方法在少样本(few-shot)和全监督(fully-supervised)设置下也表现出具有竞争力的性能。相关代码与模型已公开发布于GitHub:https://github.com/antoyang/FrozenBiLM。

代码仓库

klauscc/dam
pytorch
GitHub 中提及
antoyang/FrozenBiLM
官方
pytorch
GitHub 中提及
sts-vlcc/sts-vlcc
pytorch
GitHub 中提及

基准测试

基准方法指标
video-question-answering-on-activitynet-qaFrozenBiLM
Accuracy: 43.2
video-question-answering-on-activitynet-qaFrozenBiLM (0-shot)
Accuracy: 25.9
video-question-answering-on-how2qaFrozenBiLM
Accuracy: 86.7
video-question-answering-on-how2qaFrozenBiLM (0-shot)
Accuracy: 58.4
video-question-answering-on-ivqaFrozenBiLM (0-shot)
Accuracy: 26.8
video-question-answering-on-ivqaFrozenBiLM
Accuracy: 39.6
video-question-answering-on-msrvtt-qaFrozenBiLM
Accuracy: 47.0
video-question-answering-on-msrvtt-qaFrozenBiLM (0-shot)
Accuracy: 16.7
video-question-answering-on-tvqaFrozenBiLM
Accuracy: 82
visual-question-answering-on-msrvtt-qa-2FrozenBiLM
Accuracy: 0.470
visual-question-answering-on-msvd-qa-2FrozenBiLM
Accuracy: 0.548
zero-shot-learning-on-ivqaFrozenBiLM
Accuracy: 0.268
zero-shot-learning-on-lsmdcFrozenBiLM
Accuracy: 51.5
zero-shot-video-question-answer-on-egoschema-1FrozenBiLM
Accuracy: 26.9
zero-shot-video-question-answer-on-tvqaFrozenBiLM (with speech)
Accuracy: 59.7
zero-shot-video-question-answer-on-tvqaFrozenBILM (no speech)
Accuracy: 29.7
zeroshot-video-question-answer-on-activitynetFrozenBiLM
Accuracy: 24.7
Confidence Score: -
zeroshot-video-question-answer-on-msvd-qaFrozenBiLM
Accuracy: 33.8
zeroshot-video-question-answer-on-tgif-qaFrozenBiLM
Accuracy: 41.9

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
零样本视频问答通过冻结的双向语言模型 | 论文 | HyperAI超神经