
摘要
随着大语言模型(LLMs)的兴起,语言已成为计算机视觉领域一个突出的模态。尽管这些模型支持较长的上下文长度,但其在处理长时序信息方面的能力会随着输入长度的增加而逐渐下降,这一问题在长视频理解等应用场景中尤为关键。本文提出一种面向LLMs的语言存储库(Language Repository,简称LangRepo),用于以简洁且结构化的方式持续维护信息,并以可解释的(即纯文本形式)表示方式呈现。该存储库基于多尺度视频片段进行迭代更新,并引入了“写入”与“读取”操作,分别专注于文本冗余的剪枝以及在不同时间尺度上信息的提取。所提出的框架在多个零样本视觉问答基准测试(包括EgoSchema、NExT-QA、IntentQA和NExT-GQA)上进行了评估,展现出与其规模相匹配的最先进性能。相关代码已开源,地址为:https://github.com/kkahatapitiya/LangRepo。
代码仓库
kkahatapitiya/langrepo
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| zero-shot-video-question-answer-on-egoschema | LangRepo (12B) | Accuracy: 66.2 |
| zero-shot-video-question-answer-on-egoschema-1 | LangRepo (12B) | Accuracy: 41.2 |
| zero-shot-video-question-answer-on-intentqa | LangRepo (12B) | Accuracy: 59.1 |
| zero-shot-video-question-answer-on-next-gqa | LangRepo (12B) | Acc@GQA: 17.1 |
| zero-shot-video-question-answer-on-next-qa | LangRepo (12B) | Accuracy: 60.9 |