8 个月前

多模态表征

统一多模态

Sihan Chen; Handong Li; Qunbo Wang; Zijia Zhao; Mingzhen Sun; Xinxin Zhu; Jing Liu

摘要

视觉和文本在当代视频-文本基础模型中已得到充分探索，而视频中的其他模态，如音频和字幕，尚未获得足够的关注。本文旨在通过构建一个大规模自动生成的全模态视频字幕数据集（VAST-27M）来建立视觉、音频和字幕与文本之间的联系。具体而言，我们首先收集了2700万个开放领域的视频片段，并分别训练了一个视觉字幕生成器和一个音频字幕生成器以生成视觉和音频字幕。然后，我们利用现成的大规模语言模型（LLM）将生成的字幕与字幕文本及指令提示整合为全模态字幕。基于所提出的VAST-27M数据集，我们训练了一个名为VAST的全模态视频-文本基础模型，该模型能够感知和处理来自视频的视觉、音频和字幕模态，并更好地支持包括视觉-文本、音频-文本以及多模态视频-文本任务（检索、字幕生成和问答）在内的多种任务。我们进行了大量实验以证明所提出的VAST-27M语料库和VAST基础模型的有效性。VAST在各种跨模态基准测试中取得了22项新的最佳结果。代码、模型和数据集将在https://github.com/TXH-mercury/VAST发布。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

多模态表征

统一多模态

Sihan Chen; Handong Li; Qunbo Wang; Zijia Zhao; Mingzhen Sun; Xinxin Zhu; Jing Liu

摘要

视觉和文本在当代视频-文本基础模型中已得到充分探索，而视频中的其他模态，如音频和字幕，尚未获得足够的关注。本文旨在通过构建一个大规模自动生成的全模态视频字幕数据集（VAST-27M）来建立视觉、音频和字幕与文本之间的联系。具体而言，我们首先收集了2700万个开放领域的视频片段，并分别训练了一个视觉字幕生成器和一个音频字幕生成器以生成视觉和音频字幕。然后，我们利用现成的大规模语言模型（LLM）将生成的字幕与字幕文本及指令提示整合为全模态字幕。基于所提出的VAST-27M数据集，我们训练了一个名为VAST的全模态视频-文本基础模型，该模型能够感知和处理来自视频的视觉、音频和字幕模态，并更好地支持包括视觉-文本、音频-文本以及多模态视频-文本任务（检索、字幕生成和问答）在内的多种任务。我们进行了大量实验以证明所提出的VAST-27M语料库和VAST基础模型的有效性。VAST在各种跨模态基准测试中取得了22项新的最佳结果。代码、模型和数据集将在https://github.com/TXH-mercury/VAST发布。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供