
摘要
在包含多个发言者的视频中进行活跃发言人检测(Active Speaker Detection, ASD)是一项具有挑战性的任务,因为它需要学习有效的视听特征以及长时间窗口内的时空相关性。本文提出了一种新颖的时空图学习框架——SPELL,该框架能够解决如ASD等复杂任务。为此,视频帧中的每个人首先被编码为该帧的一个独特节点。同一人在不同帧中的节点相互连接以编码其时间动态。此外,同一帧内的节点也相互连接以编码人际间的关系。因此,SPELL将活跃发言人检测问题简化为一个节点分类任务。重要的是,SPELL能够在不依赖计算成本高昂的全连接图神经网络的情况下,对所有节点进行长时间上下文的推理。通过在AVA-ActiveSpeaker数据集上进行大量实验,我们证明了基于图的学习表示可以显著提高活跃发言人检测性能,这得益于其明确的时空结构。 SPELL不仅超越了所有先前的最先进方法,而且所需的内存和计算资源显著减少。我们的代码已公开发布在https://github.com/SRA2/SPELL。
代码仓库
sra2/spell
官方
pytorch
GitHub 中提及
kylemin/SPELL
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| audio-visual-active-speaker-detection-on-ava | SPELL | validation mean average precision: 94.2% |
| audio-visual-active-speaker-detection-on-ava | SPELL+ | validation mean average precision: 94.9% |
| node-classification-on-ava | UniCon [zhang2021unicon] | mAP: 92 |
| node-classification-on-ava | MAAS-TAN [MAAS2021] | mAP: 88.8 |
| node-classification-on-ava | ASDNet [ASDNet_ICCV2021] | mAP: 93.5 |
| node-classification-on-ava | TalkNet [tao2021someone] | mAP: 92.3 |