HyperAIHyperAI

Command Palette

Search for a command to run...

Video-ChatGPT:通过大型视觉和语言模型实现详细的视频理解

Muhammad Maaz Hanoona Rasheed Salman Khan Fahad Shahbaz Khan

摘要

由大型语言模型(LLMs)驱动的对话代理为与视觉数据的交互提供了一种新的方式。尽管已经有一些初步尝试构建基于图像的对话模型,但本研究通过引入Video-ChatGPT,探讨了尚未充分开发的基于视频的对话领域。Video-ChatGPT是一种多模态模型,它将视频适应的视觉编码器与大型语言模型相结合。该模型能够理解和生成关于视频的详细对话。我们引入了一个包含100,000个视频指令对的新数据集,这些数据对通过手动和半自动管道获取,具有易于扩展且对标签噪声鲁棒的特点。此外,我们还开发了一个定量评估框架,用于客观分析基于视频的对话模型的优势和不足。代码:https://github.com/mbzuai-oryx/Video-ChatGPT


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Video-ChatGPT:通过大型视觉和语言模型实现详细的视频理解 | 论文 | HyperAI超神经