
摘要
长时段视频跨越了较长时间间隔,具有高度的信息冗余性,并包含多个通常关系较为松散的不同事件或实体。因此,在进行长时段视频问答(LVQA)时,生成正确答案所需的所有信息往往可以包含在一小部分关键帧中。近期的研究探索了大型语言模型(LLMs)在LVQA基准测试中的应用,取得了卓越的性能,但这些模型依赖视觉语言模型(VLMs)将视频中的所有视觉内容转换为自然语言。这种VLMs通常会独立地对从长视频中均匀采样的大量帧进行描述,这不仅效率低下,而且大部分内容是冗余的。针对这些决策选择,我们探讨了最优的关键帧选择策略,以显著减少这些冗余性,即分层关键帧选择器(Hierarchical Keyframe Selector)。我们提出的框架LVNet在三个基准LVQA数据集EgoSchema、NExT-QA和IntentQA上达到了最先进的性能,并且在VideoMME长达一小时的视频中也表现出色。我们的代码将公开发布。代码可以在https://github.com/jongwoopark7978/LVNet找到。
代码仓库
jongwoopark7978/LVNet
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| zero-shot-video-question-answer-on-egoschema | LVNet | Accuracy: 66.0 |
| zero-shot-video-question-answer-on-egoschema-1 | LVNet | Accuracy: 61.1 |
| zero-shot-video-question-answer-on-intentqa | LVNet | Accuracy: 71.1 |
| zero-shot-video-question-answer-on-next-qa | LVNet(GPT-4o) | Accuracy: 72.9 |