
摘要
得益于大规模语言模型和跨模态对齐技术的进步,现有的多模态视频理解方法在离线场景中已经取得了显著的性能。然而,作为现实世界中最常见的媒体形式之一,在线视频流却很少受到关注。与离线视频相比,在线视频流的“动态”特性给现有模型的直接应用带来了挑战,并引入了新的问题,例如极长时间信息的存储以及连续视觉内容与“异步”用户提问之间的交互。因此,本文提出了一种模拟人类记忆机制的视频-语言模型——Flash-VStream。该模型能够在实时处理极长的视频流的同时响应用户的查询。与现有模型相比,Flash-VStream在推理延迟和显存消耗方面实现了显著降低,这对于在线流媒体视频的理解至关重要。此外,鉴于现有的视频理解基准测试主要集中在离线场景,我们提出了VStream-QA,一种专门为在线视频流理解设计的新颖问答基准测试。在该基准测试上与流行的现有方法进行对比表明,我们的方法在这种具有挑战性的设置下表现出色。为了验证我们方法的泛化能力,我们进一步在现有的视频理解基准测试上对其进行了评估,并在离线场景中也达到了最先进的性能。所有代码、模型和数据集均可在https://invinciblewyq.github.io/vstream-page/ 获取。
代码仓库
IVGSZ/Flash-VStream
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| question-answering-on-next-qa-open-ended | Flash-VStream | Accuracy: 61.6 Confidence Score: 3.4 |
| zeroshot-video-question-answer-on-activitynet | Flash-VStream | Accuracy: 51.9 Confidence Score: 3.4 |
| zeroshot-video-question-answer-on-msrvtt-qa | Flash-VStream | Accuracy: 72.4 Confidence Score: 3.4 |
| zeroshot-video-question-answer-on-msvd-qa | Flash-VStream | Accuracy: 80.3 Confidence Score: 3.9 |