4 个月前

塔尔西尔:大规模视频描述模型的训练与评估方法

塔尔西尔:大规模视频描述模型的训练与评估方法

摘要

生成细粒度视频描述是视频理解中的一个基本挑战。在本研究中,我们介绍了Tarsier,这是一系列大规模视频-语言模型,旨在生成高质量的视频描述。Tarsier利用CLIP-ViT分别对帧进行编码,然后使用大型语言模型(LLM)来建模时间关系。尽管其架构简单,但我们通过精心设计的两阶段训练流程证明了Tarsier模型在视频描述能力上显著优于任何现有的开源模型,在人类并排评估中比最强的现有模型高出51.4%。此外,它们的表现与最先进的专有模型相当,相对于GPT-4V具有12.3%的优势,而相对于Gemini 1.5 Pro则有6.7%的劣势。当基于SigLIP和Qwen2-7B升级为Tarsier2时,其性能进一步提升,在与GPT-4o的对比中显示出4.8%的优势。除了视频描述外,Tarsier还被证明是一个多功能的通用模型,在九个公开基准测试中取得了新的最佳结果,包括多项选择视觉问答(VQA)、开放式VQA和零样本视频字幕生成。我们的第二个贡献是引入了一个新的基准——DREAM-1K(https://tarsier-vlm.github.io/),用于评估视频描述模型。该基准包含一个新的具有挑战性的数据集,其中的视频来自多样化的来源且复杂度各异,并配有一个专门设计的自动方法来评估细粒度视频描述的质量。我们已将我们的模型和评估基准公开发布在https://github.com/bytedance/tarsier。

代码仓库

bytedance/tarsier
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
video-question-answering-on-mvbenchTarsier (34B)
Avg.: 67.6
video-question-answering-on-tvbenchTarsier-7B
Average Accuracy: 46.9
video-question-answering-on-tvbenchTarsier-34B
Average Accuracy: 55.5
zero-shot-video-question-answer-on-egoschemaTarsier (34B)
Accuracy: 68.6
zero-shot-video-question-answer-on-egoschema-1Tarsier (34B)
Accuracy: 61.7
zero-shot-video-question-answer-on-next-qaTarsier (34B)
Accuracy: 79.2
zeroshot-video-question-answer-on-activitynetTarsier (34B)
Accuracy: 61.6
Confidence Score: 3.7
zeroshot-video-question-answer-on-msrvtt-qaTarsier (34B)
Accuracy: 66.4
Confidence Score: 3.7
zeroshot-video-question-answer-on-msvd-qaTarsier (34B)
Accuracy: 80.3
Confidence Score: 4.2
zeroshot-video-question-answer-on-tgif-qaTarsier (34B)
Accuracy: 82.5
Confidence Score: 4.4

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
塔尔西尔:大规模视频描述模型的训练与评估方法 | 论文 | HyperAI超神经