4 个月前

实时目标声音提取

实时目标声音提取

摘要

我们提出了首个实现实时和流式目标声音提取的神经网络模型。为此,我们设计了Waveformer,这是一种编码器-解码器架构,其中编码器由多层扩张因果卷积层组成,解码器则采用变压器解码层。这种混合架构利用扩张因果卷积以计算高效的方式处理较大的感受野,同时发挥基于变压器架构的泛化性能优势。我们的评估结果显示,与先前用于此任务的模型相比,该模型在SI-SNRi指标上提高了2.2-3.3分贝,同时模型大小减少了1.2-4倍,运行时间降低了1.5-2倍。我们提供了代码、数据集和音频样本:https://waveformer.cs.washington.edu/。

代码仓库

vb000/waveformer
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
streaming-target-sound-extraction-onWaveformer
SI-SNRi: 9.43
target-sound-extraction-on-fsdsoundscapesWaveformer
SI-SNRi: 9.43

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
实时目标声音提取 | 论文 | HyperAI超神经