
摘要
多模态学习的主要挑战之一在于如何融合异构模态(如视频、音频、文本)。例如,视频和音频的采样频率远高于文本,且在时间上大致对齐;而文本通常作为全局上下文信息出现,如标题或描述,往往与视频和音频在时间上不同步。此外,视频和音频数据的体量远大于文本,且随视频时长增加而显著增长,这自然导致对这些模态需要更多的计算资源,同时也使得建模长程依赖关系变得更加困难。为此,我们提出将多模态建模过程解耦,构建一系列独立而专注的自回归模型,依据各模态的特性分别处理输入。我们提出了一种名为Mirasol3B的多模态模型,该模型包含两个自回归组件:一个用于处理时间同步的模态(音频与视频),另一个用于处理非严格时间对齐但具有序列特性的上下文模态。为应对视频-音频输入的长序列问题,我们进一步将视频与音频序列划分为连续的片段(snippets),并采用自回归方式逐片段处理其表示。为此,我们设计了一种Combiner机制,用于在时间窗口内联合建模音频与视频信息。Combiner能够从原始时空信号中学习提取音频与视频特征,并进一步融合这些特征,生成每个片段紧凑而富有表现力的统一表征。该方法在多个公认的标准多模态基准测试中取得了当前最优性能,超越了许多参数量更大的模型。通过学习紧凑的特征表示、控制音频-视频特征表示的序列长度,以及有效建模其时间依赖关系,该方法显著缓解了媒体输入带来的高计算需求问题。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| action-classification-on-kinetics-sounds | Mirasol3B | Top 1 Accuracy: 90.1 |
| audio-classification-on-epic-sounds | Mirasol3B | Accuracy: 78.2 |
| audio-classification-on-vggsound | Mirasol3B | Top 1 Accuracy: 69.8 |
| video-question-answering-on-activitynet-qa | Mirasol3B | Accuracy: 51.13 |
| video-question-answering-on-msrvtt-qa | Mirasol3B | Accuracy: 50.42 |
| video-question-answering-on-next-qa | Mirasol3B | Accuracy: 72 |