3 个月前

Mirasol3B:一种用于时间对齐与上下文模态的多模态自回归模型

Mirasol3B:一种用于时间对齐与上下文模态的多模态自回归模型

摘要

多模态学习的主要挑战之一在于如何融合异构模态(如视频、音频、文本)。例如,视频和音频的采样频率远高于文本,且在时间上大致对齐;而文本通常作为全局上下文信息出现,如标题或描述,往往与视频和音频在时间上不同步。此外,视频和音频数据的体量远大于文本,且随视频时长增加而显著增长,这自然导致对这些模态需要更多的计算资源,同时也使得建模长程依赖关系变得更加困难。为此,我们提出将多模态建模过程解耦,构建一系列独立而专注的自回归模型,依据各模态的特性分别处理输入。我们提出了一种名为Mirasol3B的多模态模型,该模型包含两个自回归组件:一个用于处理时间同步的模态(音频与视频),另一个用于处理非严格时间对齐但具有序列特性的上下文模态。为应对视频-音频输入的长序列问题,我们进一步将视频与音频序列划分为连续的片段(snippets),并采用自回归方式逐片段处理其表示。为此,我们设计了一种Combiner机制,用于在时间窗口内联合建模音频与视频信息。Combiner能够从原始时空信号中学习提取音频与视频特征,并进一步融合这些特征,生成每个片段紧凑而富有表现力的统一表征。该方法在多个公认的标准多模态基准测试中取得了当前最优性能,超越了许多参数量更大的模型。通过学习紧凑的特征表示、控制音频-视频特征表示的序列长度,以及有效建模其时间依赖关系,该方法显著缓解了媒体输入带来的高计算需求问题。

基准测试

基准方法指标
action-classification-on-kinetics-soundsMirasol3B
Top 1 Accuracy: 90.1
audio-classification-on-epic-soundsMirasol3B
Accuracy: 78.2
audio-classification-on-vggsoundMirasol3B
Top 1 Accuracy: 69.8
video-question-answering-on-activitynet-qaMirasol3B
Accuracy: 51.13
video-question-answering-on-msrvtt-qaMirasol3B
Accuracy: 50.42
video-question-answering-on-next-qaMirasol3B
Accuracy: 72

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Mirasol3B:一种用于时间对齐与上下文模态的多模态自回归模型 | 论文 | HyperAI超神经