HyperAIHyperAI

Command Palette

Search for a command to run...

VideoChat:以聊天为中心的视频理解

Kunchang Li∗1,4 Yinan He∗1 Yi Wang†1 Yizhuo Li1,3 Wenhai Wang1 Ping Luo3,1 Yali Wang‡4,1 Limin Wang‡2,1 Yu Qiao†1

摘要

本文首次尝试开发一种端到端的以聊天为中心的视频理解系统,命名为VideoChat。该系统通过可学习的神经接口集成了视频基础模型和大规模语言模型,在时空推理、事件定位和因果关系推断方面表现出色。为了指导性地调整这一系统,我们构建了一个以视频为中心的指令数据集,包含数千个与详细描述和对话相关联的视频。该数据集强调时空推理并捕捉因果关系,为训练我们的以聊天为中心的视频理解系统提供了宝贵的资源。初步的定性实验展示了我们的系统在广泛视频应用中的潜力,可以作为未来研究中以聊天为中心的视频理解系统的简单原型系统。代码和数据可在https://github.com/OpenGVLab/Ask-Anything 获取。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供