
摘要
本报告简要介绍了我们在ActivityNet Challenge 2021中参与AVA主动说话者检测(Active Speaker Detection, ASD)任务的方法。我们的解决方案——扩展统一上下文网络(Extended Unified Context Network,简称Extended UniCon),基于一种专为鲁棒性说话者检测设计的新颖统一上下文网络(Unified Context Network, UniCon)。该网络通过融合多种类型的上下文信息,实现对所有候选目标的联合优化。我们在原始UniCon的基础上,对音频特征表示、时间建模架构以及损失函数设计进行了若干改进。最终,我们的最佳模型集成在AVA-ActiveSpeaker测试集上取得了93.4%的mAP(平均精度均值),且无需任何形式的预训练,创下新的最先进水平,目前在ActivityNet挑战赛排行榜上位居第一。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| audio-visual-active-speaker-detection-on-ava | Extended UniCon | validation mean average precision: 93.6% |