摘要

多模态大语言模型（MLLMs）最近因其强大的多模态理解能力而成为研究的热点。例如，在音频和语音领域，只需将通过音频编码器计算得到的音频标记与文本标记连接起来，一个大语言模型（LLM）就能具备（自动）语音识别（ASR）能力，并达到最先进的水平。相比之下，利用噪声不变唇部运动信息的任务，如视觉和视听语音识别（VSR/AVSR），却鲜有关注。为了弥补这一差距，我们提出了一种新的多模态大语言模型——Llama-AVSR，该模型具有强大的视听语音识别能力。Llama-AVSR 利用预训练的音频和视频编码器生成特定模态的标记，这些标记与文本标记一起被输入到预训练的大语言模型（如 Llama3.1-8B）中进行处理，以自回归的方式生成最终响应。Llama-AVSR 只需少量可训练参数，因为只有特定模态的投影模块和 LoRA 模块进行了训练，而多模态编码器和大语言模型则保持冻结状态。我们在最大的公开视听语音识别基准数据集 LRS3 上评估了所提出的方案，并在 ASR 和 AVSR 任务上分别达到了 0.79% 和 0.77% 的词错误率（WER），创造了新的最先进记录。为了进一步验证我们的结果，我们探讨了支持 Llama-AVSR 有效性的关键因素：预训练编码器和大语言模型的选择、LoRA 模块的有效集成以及通过模态感知压缩率获得的最佳性能与效率权衡。

源 PDF