4 个月前

RTFS-Net:用于高效音视频语音分离的循环时频建模

RTFS-Net:用于高效音视频语音分离的循环时频建模

摘要

音频视觉语音分离方法旨在整合不同的模态,以生成高质量的分离语音,从而提升诸如语音识别等下游任务的性能。现有的大多数最先进(SOTA)模型都在时域内运行。然而,它们对声学特征建模的方法过于简单,通常需要更大且计算量更高的模型才能达到最先进水平。在本文中,我们提出了一种新颖的时间频率域音频视觉语音分离方法:循环时间频率分离网络(Recurrent Time-Frequency Separation Network, RTFS-Net),该方法在其算法中应用了由短时傅里叶变换产生的复数时间频率单元。我们使用多层递归神经网络(RNN)独立地对音频的时间和频率维度进行建模和捕捉。此外,我们引入了一种独特的基于注意力机制的融合技术,用于高效整合音频和视觉信息,并提出了一种新的掩码分离方法,利用声学特征的固有频谱特性实现更清晰的分离。RTFS-Net在推理速度和分离质量上均优于之前的最先进方法,同时参数数量减少了90%,乘积累加运算次数(MACs)减少了83%。这是首次在时间频率域内实现超越所有当代时域同类方法的音频视觉语音分离技术。

代码仓库

spkgyk/RTFS-Net
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
speech-separation-on-lrs2RTFS-Net-12
SDRi: 15.1
SI-SNRi: 14.9
speech-separation-on-lrs2RTFS-Net-6
SDRi: 14.8
SI-SNRi: 14.6
speech-separation-on-lrs2RTFS-Net-4
SDRi: 14.3
SI-SNRi: 14.1
speech-separation-on-lrs3RTFS-Net-6
SDRi: 17.1
SI-SNRi: 16.9
speech-separation-on-lrs3RTFS-Net-4
SDRi: 15.6
SI-SNRi: 15.5
speech-separation-on-lrs3RTFS-Net-12
SDRi: 17.6
SI-SNRi: 17.5
speech-separation-on-voxceleb2RTFS-Net-4
SDRi: 12.4
SI-SNRi: 11.5
speech-separation-on-voxceleb2RTFS-Net-12
SDRi: 13.6
SI-SNRi: 12.4
speech-separation-on-voxceleb2RTFS-Net-6
SDRi: 12.8
SI-SNRi: 11.8

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
RTFS-Net:用于高效音视频语音分离的循环时频建模 | 论文 | HyperAI超神经