8 个月前

计算机视觉

Zesen Cheng Sicong Leng Hang Zhang Yifei Xin Xin Li Guanzheng Chen Yongxin Zhu Wenqi Zhang Ziyang Luo Deli Zhao

摘要

在本文中，我们介绍了VideoLLaMA 2，这是一组旨在增强视频和音频导向任务中的时空建模和音频理解能力的视频大语言模型（Video-LLMs）。基于其前身，VideoLLaMA 2引入了一个定制的时空卷积（Spatial-Temporal Convolution, STC）连接器，能够有效捕捉视频数据复杂的时空动态。此外，我们通过联合训练将一个音频分支集成到模型中，从而无缝结合音频线索，丰富了模型的多模态理解能力。我们在多项选择视频问答（MC-VQA）、开放式视频问答（OE-VQA）和视频字幕生成（VC）任务上进行了全面评估，结果表明，VideoLLaMA 2在开源模型中始终表现出竞争力，并在多个基准测试中接近某些专有模型的表现。此外，与现有模型相比，VideoLLaMA 2在仅音频和音视频问答（AQA & OE-AVQA）基准测试中也显示出合理的改进。这些进展突显了VideoLLaMA 2在多模态理解方面的卓越性能，为智能视频分析系统树立了新的标准。所有模型均公开发布，以促进进一步的研究。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

计算机视觉

Zesen Cheng Sicong Leng Hang Zhang Yifei Xin Xin Li Guanzheng Chen Yongxin Zhu Wenqi Zhang Ziyang Luo Deli Zhao

摘要

在本文中，我们介绍了VideoLLaMA 2，这是一组旨在增强视频和音频导向任务中的时空建模和音频理解能力的视频大语言模型（Video-LLMs）。基于其前身，VideoLLaMA 2引入了一个定制的时空卷积（Spatial-Temporal Convolution, STC）连接器，能够有效捕捉视频数据复杂的时空动态。此外，我们通过联合训练将一个音频分支集成到模型中，从而无缝结合音频线索，丰富了模型的多模态理解能力。我们在多项选择视频问答（MC-VQA）、开放式视频问答（OE-VQA）和视频字幕生成（VC）任务上进行了全面评估，结果表明，VideoLLaMA 2在开源模型中始终表现出竞争力，并在多个基准测试中接近某些专有模型的表现。此外，与现有模型相比，VideoLLaMA 2在仅音频和音视频问答（AQA & OE-AVQA）基准测试中也显示出合理的改进。这些进展突显了VideoLLaMA 2在多模态理解方面的卓越性能，为智能视频分析系统树立了新的标准。所有模型均公开发布，以促进进一步的研究。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供