4 个月前

Chat-UniVi:统一视觉表示赋予大型语言模型图像和视频理解能力

Chat-UniVi:统一视觉表示赋予大型语言模型图像和视频理解能力

摘要

大型语言模型在广泛的开放性任务中展示了令人印象深刻的通用能力,并将其应用范围扩展到了多模态对话。然而,现有的方法在有效处理图像和视频理解方面遇到了挑战,尤其是在视觉标记数量有限的情况下。在这项工作中,我们引入了Chat-UniVi,这是一种统一的视觉-语言模型,能够通过统一的视觉表示来理解和参与涉及图像和视频的对话。具体而言,我们使用一组动态视觉标记来统一表示图像和视频。该表示框架使模型能够高效地利用有限数量的视觉标记,同时捕捉图像所需的空间细节和视频所需的全面时间关系。此外,我们采用了多尺度表示方法,使模型能够感知高层次的语义概念和低层次的视觉细节。值得注意的是,Chat-UniVi是在包含图像和视频的混合数据集上训练的,这使得它可以无需任何修改直接应用于涉及这两种媒介的任务。大量的实验结果表明,Chat-UniVi在性能上始终优于专门为图像或视频设计的现有方法。代码可在https://github.com/PKU-YuanGroup/Chat-UniVi 获取。

代码仓库

pku-yuangroup/chat-univi
官方
pytorch
GitHub 中提及
skyworkai/moh
pytorch
GitHub 中提及
skyworkai/moe-plus-plus
pytorch
GitHub 中提及

基准测试

基准方法指标
science-question-answering-on-scienceqaChat-UniVi-13B
Avg. Accuracy: 90.99
Grades 1-6: 91.19
Grades 7-12: 90.64
Image Context: 88.05
Language Science: 88.91
Natural Science: 90.41
No Context: 90.94
Social Science: 95.05
Text Context: 89.64
vcgbench-diverse-on-videoinstructChat-UniVi
Consistency: 2.36
Contextual Understanding: 2.66
Correctness of Information: 2.29
Dense Captioning: 1.33
Detail Orientation: 2.56
Reasoning: 3.59
Spatial Understanding: 2.36
Temporal Understanding: 1.56
mean: 2.29
video-based-generative-performanceChat-UniVi
Consistency: 2.81
Contextual Understanding: 3.46
Correctness of Information: 2.89
Detail Orientation: 2.91
Temporal Understanding: 2.39
mean: 2.99
video-based-generative-performance-1Chat-UniVi
gpt-score: 2.89
video-based-generative-performance-2Chat-UniVi
gpt-score: 2.81
video-based-generative-performance-3Chat-UniVi
gpt-score: 3.46
video-based-generative-performance-4Chat-UniVi
gpt-score: 2.91
video-based-generative-performance-5Chat-UniVi
gpt-score: 2.39
video-question-answering-on-activitynet-qaChat-UniVi-13B
Accuracy: 46.4
Confidence score: 3.3
zeroshot-video-question-answer-on-activitynetChat-UniVi
Accuracy: 46.1
Confidence Score: 3.3
zeroshot-video-question-answer-on-activitynetChat-UniVi-13B
Accuracy: 46.4
Confidence Score: 3.6
zeroshot-video-question-answer-on-msrvtt-qaChat-UniVi-7B
Accuracy: 55.0
Confidence Score: 3.1
zeroshot-video-question-answer-on-msvd-qaChat-UniVi-7B
Accuracy: 69.3
Confidence Score: 3.7
zeroshot-video-question-answer-on-tgif-qaChat-UniVi-7B
Accuracy: 69.0
Confidence Score: 3.8

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Chat-UniVi:统一视觉表示赋予大型语言模型图像和视频理解能力 | 论文 | HyperAI超神经