
摘要
活跃说话人检测是在音视频场景理解中的一项具有挑战性的任务,其目标是在一个或多个说话人的场景中检测出谁在说话。该任务因其在说话人日志、说话人跟踪和自动视频编辑等应用中的重要性而受到了广泛关注。现有的研究试图通过输入多个候选信息并设计复杂的模型来提高性能。尽管这些方法取得了出色的性能,但它们对内存和计算资源的高消耗使得在资源受限的场景中难以应用。因此,我们构建了一种轻量级的活跃说话人检测架构,通过减少输入候选信息、分离二维和三维卷积进行音视频特征提取,并应用低计算复杂度的门控循环单元(GRU)进行跨模态建模。实验结果表明,在AVA-ActiveSpeaker数据集上,我们的框架实现了具有竞争力的mAP性能(94.1%对比94.2%),同时资源成本显著低于现有最先进方法,特别是在模型参数(1.0M对比22.5M,约23倍)和浮点运算次数(FLOPs)(0.6G对比2.6G,约4倍)。此外,我们的框架在Columbia数据集上的表现也很好,显示出良好的鲁棒性。代码和模型权重可在以下链接获取:https://github.com/Junhua-Liao/Light-ASD。
代码仓库
junhua-liao/light-asd
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| audio-visual-active-speaker-detection-on-ava | Light-ASD | validation mean average precision: 94.1% |