
摘要
近期在主动说话人检测(Active Speaker Detection, ASD)问题上的进展建立在一个两阶段的过程之上:特征提取和时空上下文聚合。本文提出了一种端到端的ASD工作流程,其中特征学习和上下文预测是联合进行的。我们的端到端可训练网络同时学习多模态嵌入并聚合时空上下文,从而生成更适合的特征表示,提高了ASD任务的性能。我们还引入了交错图神经网络(interleaved Graph Neural Network, iGNN)模块,这些模块根据ASD问题的主要上下文来源对消息传递进行分割。实验表明,iGNN模块聚合的特征更适合ASD任务,达到了当前最佳性能。最后,我们设计了一种弱监督策略,证明了ASD问题也可以通过利用音视频数据但仅依赖音频注释来解决。我们通过建模音频信号与可能的声音源(说话人)之间的直接关系,并引入对比损失函数来实现这一点。本项目的全部资源将在以下网址公开:https://github.com/fuankarion/end-to-end-asd。
代码仓库
tiago-roxo/bias
pytorch
GitHub 中提及
fuankarion/end-to-end-asd
官方
pytorch
GitHub 中提及
tiago-roxo/asdnb
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| audio-visual-active-speaker-detection-on-ava | EASEE-50 | validation mean average precision: 94.1% |