4 个月前

基于GPU加速的引导源分离在会议转录中的应用

基于GPU加速的引导源分离在会议转录中的应用

摘要

引导源分离(GSS)是一种依赖预先计算的说话者活动和盲源分离来对重叠语音信号进行前端增强的目标说话者提取方法。该方法首次在CHiME-5挑战赛中被提出,并相对于延迟求和波束形成基线提供了显著的改进。然而,尽管其具有诸多优势,但由于计算时间较长,该方法在会议转录基准测试中的应用仍较为有限。本文描述了我们改进的GSS实现方案,通过利用现代基于GPU的流水线(包括频率和段落的批处理),实现了比基于CPU的推理快300倍的速度提升。改进后的推理时间使我们能够对GSS算法的多个参数(如上下文持续时间、通道数量和噪声类别等)进行详细的消融研究。我们为流行的会议转录基准测试(LibriCSS、AMI和AliMeeting)提供了端到端可复现的管道,用于带有说话者属性的转录。我们的代码和配置文件已公开发布:https://github.com/desh2608/gss。

代码仓库

desh2608/gss
官方
GitHub 中提及

基准测试

基准方法指标
speech-recognition-on-libricssGSS + Transducer
Word Error Rate (WER): 3.30

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于GPU加速的引导源分离在会议转录中的应用 | 论文 | HyperAI超神经