4 个月前

VideoChat:以聊天为中心的视频理解

VideoChat:以聊天为中心的视频理解

摘要

本文首次尝试开发一种端到端的以聊天为中心的视频理解系统,命名为VideoChat。该系统通过可学习的神经接口集成了视频基础模型和大规模语言模型,在时空推理、事件定位和因果关系推断方面表现出色。为了指导性地调整这一系统,我们构建了一个以视频为中心的指令数据集,包含数千个与详细描述和对话相关联的视频。该数据集强调时空推理并捕捉因果关系,为训练我们的以聊天为中心的视频理解系统提供了宝贵的资源。初步的定性实验展示了我们的系统在广泛视频应用中的潜力,可以作为未来研究中以聊天为中心的视频理解系统的简单原型系统。代码和数据可在https://github.com/OpenGVLab/Ask-Anything 获取。

代码仓库

opengvlab/ask-anything
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
question-answering-on-next-qa-open-endedVideoChat
Accuracy: 56.6
Confidence Score: 3.2
video-based-generative-performanceVideo Chat
Consistency: 2.24
Contextual Understanding: 2.53
Correctness of Information: 2.23
Detail Orientation: 2.50
Temporal Understanding: 1.94
mean: 2.29
video-based-generative-performance-1Video Chat
gpt-score: 2.32
video-based-generative-performance-2Video Chat
gpt-score: 2.24
video-based-generative-performance-3Video Chat
gpt-score: 2.53
video-based-generative-performance-4Video Chat
gpt-score: 2.50
video-based-generative-performance-5Video Chat
gpt-score: 1.94
video-question-answering-on-activitynet-qaVideo Chat
Accuracy: 26.5
Confidence score: 2.2
video-question-answering-on-mvbenchVideoChat
Avg.: 35.5
zeroshot-video-question-answer-on-activitynetVideo Chat
Accuracy: 26.5
Confidence Score: 2.2
zeroshot-video-question-answer-on-msrvtt-qaVideo Chat-7B
Accuracy: 45.0
Confidence Score: 2.5
zeroshot-video-question-answer-on-msvd-qaVideo Chat-7B
Accuracy: 56.3
Confidence Score: 2.8
zeroshot-video-question-answer-on-tgif-qaVideo Chat-7B
Accuracy: 34.4
Confidence Score: 2.3

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
VideoChat:以聊天为中心的视频理解 | 论文 | HyperAI超神经