3 个月前

受皮层-丘脑-皮层回路启发的视听语音分离模型

受皮层-丘脑-皮层回路启发的视听语音分离模型

摘要

基于视觉输入的视听融合方法为近年来语音分离技术的发展奠定了重要基础。然而,听觉与视觉信息在协同使用过程中的优化仍是一个活跃的研究方向。受皮层-丘脑-皮层环路(cortico-thalamo-cortical circuit)的启发——该环路中不同感觉模态的处理机制通过非丘系(non-lemniscal)感觉丘脑相互调节——我们提出了一种新型的皮层-丘脑-皮层神经网络(Cortico-Thalamo-Cortical Neural Network, CTCNet),用于视听语音分离(Audio-Visual Speech Separation, AVSS)。首先,CTCNet在独立的听觉与视觉子网络中,以自下而上的方式学习分层的听觉与视觉表征,模拟大脑听觉与视觉皮层的功能。随后,受皮层区域与丘脑之间广泛连接的启发,模型通过自上而下的连接,在丘脑子网络中融合听觉与视觉信息。最后,融合后的信息被反馈回听觉与视觉子网络,整个过程重复多次。在三个语音分离基准数据集上的实验结果表明,CTCNet显著优于现有AVSS方法,且参数量大幅减少。这些结果表明,模仿哺乳动物大脑的解剖连接组(anatomical connectome)结构,具有巨大潜力推动深度神经网络的发展。项目代码仓库地址:https://github.com/JusperLee/CTCNet。

代码仓库

jusperlee/ctcnet
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
speech-separation-on-lrs2CTCNet
SI-SNRi: 14.3
speech-separation-on-lrs3CTCNet
SI-SNRi: 17.4
speech-separation-on-voxceleb2CTCNet
SI-SNRi: 11.9

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
受皮层-丘脑-皮层回路启发的视听语音分离模型 | 论文 | HyperAI超神经