8 个月前

音频和语音处理

Chen Chen Ruizhe Li Yuchen Hu Sabato Marco Siniscalchi Pin-Yu Chen Eng Siong Chng Chao-Han Huck Yang

摘要

近期的研究成功证明了大型语言模型（LLMs）可以有效地用于自动语音识别（ASR）输出上的生成错误校正（GER）。具体而言，LLM 被用来直接从 ASR 系统生成的最佳 N 个假设列表中映射到预测的输出转录。然而，尽管其效果显著，GER 引入了额外的数据不确定性，因为 LLM 在训练过程中并未考虑语音信号中的声学信息。在本研究中，我们旨在通过一种新颖的后期融合解决方案——不确定性感知动态融合（Uncertainty-Aware Dynamic Fusion, UADF）来克服这一限制。UADF 是一种多模态融合方法，集成到自回归解码过程中，并分为两个阶段：(i) 首先分析和校准词元级别的 LLM 决策；(ii) 然后动态地整合来自声学模态的信息。实验结果表明，UADF 在多个 ASR 任务中超越了现有的融合机制。它不仅显著降低了词错误率（WER），还减轻了 LLM 中的数据不确定性问题，并解决了单一模态在融合过程中的泛化能力不足的问题。此外，我们还展示了 UADF 能够无缝适应视听语音识别。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

音频和语音处理

Chen Chen Ruizhe Li Yuchen Hu Sabato Marco Siniscalchi Pin-Yu Chen Eng Siong Chng Chao-Han Huck Yang

摘要

近期的研究成功证明了大型语言模型（LLMs）可以有效地用于自动语音识别（ASR）输出上的生成错误校正（GER）。具体而言，LLM 被用来直接从 ASR 系统生成的最佳 N 个假设列表中映射到预测的输出转录。然而，尽管其效果显著，GER 引入了额外的数据不确定性，因为 LLM 在训练过程中并未考虑语音信号中的声学信息。在本研究中，我们旨在通过一种新颖的后期融合解决方案——不确定性感知动态融合（Uncertainty-Aware Dynamic Fusion, UADF）来克服这一限制。UADF 是一种多模态融合方法，集成到自回归解码过程中，并分为两个阶段：(i) 首先分析和校准词元级别的 LLM 决策；(ii) 然后动态地整合来自声学模态的信息。实验结果表明，UADF 在多个 ASR 任务中超越了现有的融合机制。它不仅显著降低了词错误率（WER），还减轻了 LLM 中的数据不确定性问题，并解决了单一模态在融合过程中的泛化能力不足的问题。此外，我们还展示了 UADF 能够无缝适应视听语音识别。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供