
摘要
近年来,深度学习在多个领域受到广泛关注,但主流深度学习模型极少使用复数。然而,经过傅里叶变换后,语音、信号和音频数据天然具有复数值特性,已有研究表明,复数神经网络可能具备更丰富的表征能力。本文提出一种复数Transformer(Complex Transformer),以Transformer架构作为序列建模的骨干网络,并设计了适用于复数输入的注意力机制及编码器-解码器网络。该模型在MusicNet数据集和同相正交(In-phase Quadrature, IQ)信号数据集上均取得了当前最优的性能表现。
代码仓库
muqiaoy/dl_signal
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| music-transcription-on-musicnet | Complex Transformer | APS: 74.22 Number of params: 11.61M |
| music-transcription-on-musicnet | Concatenated Transformer | APS: 71.3 Number of params: 9.79M |