Command Palette
Search for a command to run...
MiniGPT4-Video:通过交错的视觉-文本标记推进多模态大语言模型的视频理解能力
MiniGPT4-Video:通过交错的视觉-文本标记推进多模态大语言模型的视频理解能力
Kirolos Ataallah Xiaoqian Shen Eslam Abdelrahman Essam Sleiman Deyao Zhu Jian Ding Mohamed Elhoseiny
摘要
本文介绍了MiniGPT4-Video,这是一种专门为视频理解设计的多模态大语言模型(LLM)。该模型能够处理时间上的视觉数据和文本数据,使其在理解视频的复杂性方面表现出色。基于MiniGPT-v2的成功,后者在将单张图像的视觉特征转换到大语言模型空间中表现出色,并在多个图像-文本基准测试中取得了令人印象深刻的结果,本文进一步扩展了模型的能力,使其能够处理一系列帧,从而实现对视频的理解。MiniGPT4-Video不仅考虑了视觉内容,还融入了文本对话,使得该模型能够有效回答涉及视觉和文本组件的问题。实验结果表明,该模型在MSVD、MSRVTT、TGIF和TVQA基准测试中的表现优于现有的最先进方法,分别提高了4.22%、1.13%、20.82%和13.1%。我们的模型和代码已公开发布于https://vision-cair.github.io/MiniGPT4-video/