4 个月前

大型语言模型是强大的视听语音识别学习者

大型语言模型是强大的视听语音识别学习者

摘要

多模态大语言模型(MLLMs)最近因其强大的多模态理解能力而成为研究的热点。例如,在音频和语音领域,只需将通过音频编码器计算得到的音频标记与文本标记连接起来,一个大语言模型(LLM)就能具备(自动)语音识别(ASR)能力,并达到最先进的水平。相比之下,利用噪声不变唇部运动信息的任务,如视觉和视听语音识别(VSR/AVSR),却鲜有关注。为了弥补这一差距,我们提出了一种新的多模态大语言模型——Llama-AVSR,该模型具有强大的视听语音识别能力。Llama-AVSR 利用预训练的音频和视频编码器生成特定模态的标记,这些标记与文本标记一起被输入到预训练的大语言模型(如 Llama3.1-8B)中进行处理,以自回归的方式生成最终响应。Llama-AVSR 只需少量可训练参数,因为只有特定模态的投影模块和 LoRA 模块进行了训练,而多模态编码器和大语言模型则保持冻结状态。我们在最大的公开视听语音识别基准数据集 LRS3 上评估了所提出的方案,并在 ASR 和 AVSR 任务上分别达到了 0.79% 和 0.77% 的词错误率(WER),创造了新的最先进记录。为了进一步验证我们的结果,我们探讨了支持 Llama-AVSR 有效性的关键因素:预训练编码器和大语言模型的选择、LoRA 模块的有效集成以及通过模态感知压缩率获得的最佳性能与效率权衡。

代码仓库

umbertocappellazzo/llama-avsr
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
audio-visual-speech-recognition-on-lrs3-tedLlama-AVSR
Word Error Rate (WER): 0.77
speech-recognition-on-lrs3-tedLlama-AVSR
Word Error Rate (WER): 0.81

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
大型语言模型是强大的视听语音识别学习者 | 论文 | HyperAI超神经