Zhisheng ZhongChengyao WangYuqi LiuSenqiao YangLongxiang TangYuechen ZhangJingyao LiTianyuan QuYanwei LiYukang ChenShaozuo YuSitong WuEric LoShu LiuJiaya Jia

摘要
随着多模态大语言模型(MLLMs)的不断发展,突破单一领域能力的局限,实现更广泛、更高效的通用人工智能已成为迫切需求。然而,以往的通用模型在语音模态方面仍存在明显不足,未能充分探索语音与多模态的深度融合。为此,我们提出了Lyra——一种高效且以语音为中心的多模态大语言模型,显著提升了多模态理解能力,涵盖先进的长语音理解、声音感知、跨模态效率以及无缝语音交互等关键特性。为实现高效性与以语音为核心的能力,Lyra采用三项关键技术策略:(1)基于现有的开源大模型,并引入一种新型多模态LoRA(Low-Rank Adaptation)方法,有效降低训练成本与数据依赖;(2)设计潜空间多模态正则化器与特征提取器,强化语音与其他模态(如视觉、语言)之间的关联性,从而提升模型整体性能;(3)构建了一个高质量、大规模的多模态数据集,包含150万组多模态数据样本(涵盖语言、视觉与音频)以及1.2万条长语音样本,使Lyra能够有效处理复杂的长语音输入,实现更鲁棒的全模态认知能力。相较于其他通用模型方法,Lyra在多个视觉-语言、视觉-语音及语音-语言基准测试中均取得了当前最优的性能表现,同时显著减少了计算资源消耗与训练数据需求,展现出卓越的效率与泛化能力。
代码仓库
dvlab-research/Lyra
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| visual-question-answering-on-mm-vet | Lyra-Base | GPT-4 score: 63.5 Params: 9B |
| visual-question-answering-on-mm-vet | Lyra-Pro | GPT-4 score: 71.4 Params: 74B |
| visual-question-answering-on-mm-vet | Lyra-Mini | GPT-4 score: 51.2 Params: 3B |
| visual-question-answering-vqa-on-egoschema | Lyra-Pro | Acc: 75.8 |
| visual-question-answering-vqa-on-mm-vet | Lyra-Pro | Acc: 71.4 |
| visual-question-answering-vqa-on-mme | Lyra-Pro | Acc: 2485 |
| visual-question-answering-vqa-on-mvbench | Lyra-Pro | Acc: 72.3 |
| visual-question-answering-vqa-on-textvqa | Lyra-Pro | Acc: 83.5 |
| visual-question-answering-vqa-on-video-mme | Lyra-Pro | Acc: 69.9 |