
摘要
视频与语言理解在工业界具有广泛的应用,例如视频问答、文本-视频检索以及多标签分类等。现有的视频与语言理解方法通常采用复杂的多模态编码器和特征融合模块,导致计算开销较高。尤其在工业应用中,面对密集的视频帧或长文本序列时,现有方法往往难以有效处理。本文提出了一种名为MuLTI的高效且高精度的视频与语言理解模型,该模型实现了高效的特征融合,并具备快速适应下游任务的能力。具体而言,我们设计了一种基于自适应池化残差映射与自注意力机制的文本引导多路采样器(Text-Guided MultiWay-Sampler),用于对长序列进行高效采样并融合多模态特征。该方法显著降低了计算成本,同时缓解了以往采样器导致的性能下降问题,使MuLTI能够在计算资源受限的情况下处理更长的序列。为进一步提升模型性能,并弥补视频问答任务中预训练任务的不足,我们提出了一种新的预训练任务——多选建模(Multiple Choice Modeling)。该任务有效弥合了预训练阶段与下游任务之间的差距,增强了模型对视频与文本特征的对齐能力。得益于高效的特征融合模块与新颖的预训练任务,MuLTI在多个数据集上均取得了当前最优(state-of-the-art)的性能表现。相关代码与预训练模型将对外公开发布。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| video-retrieval-on-didemo | MuLTI | text-to-video R@1: 56.5 text-to-video R@10: 87.0 text-to-video R@5: 80.2 |
| video-retrieval-on-msr-vtt-1ka | MuLTI | text-to-video R@1: 54.7 text-to-video R@10: 86.0 text-to-video R@5: 77.7 |
| visual-question-answering-on-msrvtt-qa-1 | MuLTI | Accuracy: 0.478 |
| visual-question-answering-on-msvd-qa-1 | MuLTI | Accuracy: 0.547 |