
摘要
我们提出了首个实现实时和流式目标声音提取的神经网络模型。为此,我们设计了Waveformer,这是一种编码器-解码器架构,其中编码器由多层扩张因果卷积层组成,解码器则采用变压器解码层。这种混合架构利用扩张因果卷积以计算高效的方式处理较大的感受野,同时发挥基于变压器架构的泛化性能优势。我们的评估结果显示,与先前用于此任务的模型相比,该模型在SI-SNRi指标上提高了2.2-3.3分贝,同时模型大小减少了1.2-4倍,运行时间降低了1.5-2倍。我们提供了代码、数据集和音频样本:https://waveformer.cs.washington.edu/。
代码仓库
vb000/waveformer
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| streaming-target-sound-extraction-on | Waveformer | SI-SNRi: 9.43 |
| target-sound-extraction-on-fsdsoundscapes | Waveformer | SI-SNRi: 9.43 |