6 个月前

统一多模态

多模态表征

Zhisheng Zhong Chengyao Wang Yuqi Liu Senqiao Yang Longxiang Tang Yuechen Zhang Jingyao Li Tianyuan Qu Yanwei Li Yukang Chen

摘要

随着多模态大语言模型（MLLMs）的不断发展，突破单一领域能力的局限，实现更广泛、更高效的通用人工智能，已成为迫切需求。然而，以往的通用模型在语音模态方面研究不足，未能充分实现语音与其他模态的融合。为此，我们提出Lyra——一种高效且以语音为中心的多模态大语言模型，显著提升了多模态理解能力，涵盖先进的长语音理解、声音感知、跨模态高效性以及无缝语音交互等关键能力。为实现高效性与以语音为核心的功能，Lyra采用三项关键技术策略：（1）利用现有的开源大模型，并结合我们提出的多模态LoRA（Low-Rank Adaptation）方法，有效降低训练成本与数据需求；（2）引入潜在空间多模态正则化器与特征提取器，强化语音与其他模态之间的关联，从而提升模型整体性能；（3）构建了一个高质量、大规模的多模态数据集，包含150万组多模态数据样本（涵盖语言、视觉与音频）以及1.2万条长语音样本，使Lyra能够有效处理复杂的长语音输入，实现更鲁棒的全模态认知。相较于其他通用模型方法，Lyra在多个视觉-语言、视觉-语音及语音-语言基准测试中均取得了当前最优性能，同时显著减少了计算资源消耗与训练数据用量，展现出卓越的效率与泛化能力。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

统一多模态

多模态表征

Zhisheng Zhong Chengyao Wang Yuqi Liu Senqiao Yang Longxiang Tang Yuechen Zhang Jingyao Li Tianyuan Qu Yanwei Li Yukang Chen

摘要

随着多模态大语言模型（MLLMs）的不断发展，突破单一领域能力的局限，实现更广泛、更高效的通用人工智能，已成为迫切需求。然而，以往的通用模型在语音模态方面研究不足，未能充分实现语音与其他模态的融合。为此，我们提出Lyra——一种高效且以语音为中心的多模态大语言模型，显著提升了多模态理解能力，涵盖先进的长语音理解、声音感知、跨模态高效性以及无缝语音交互等关键能力。为实现高效性与以语音为核心的功能，Lyra采用三项关键技术策略：（1）利用现有的开源大模型，并结合我们提出的多模态LoRA（Low-Rank Adaptation）方法，有效降低训练成本与数据需求；（2）引入潜在空间多模态正则化器与特征提取器，强化语音与其他模态之间的关联，从而提升模型整体性能；（3）构建了一个高质量、大规模的多模态数据集，包含150万组多模态数据样本（涵盖语言、视觉与音频）以及1.2万条长语音样本，使Lyra能够有效处理复杂的长语音输入，实现更鲁棒的全模态认知。相较于其他通用模型方法，Lyra在多个视觉-语言、视觉-语音及语音-语言基准测试中均取得了当前最优性能，同时显著减少了计算资源消耗与训练数据用量，展现出卓越的效率与泛化能力。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Lyra：一种高效且以语音为中心的全认知框架 | 论文 | HyperAI超神经