4 个月前

学习长期时空图用于活跃说话人检测

学习长期时空图用于活跃说话人检测

摘要

在包含多个发言者的视频中进行活跃发言人检测(Active Speaker Detection, ASD)是一项具有挑战性的任务,因为它需要学习有效的视听特征以及长时间窗口内的时空相关性。本文提出了一种新颖的时空图学习框架——SPELL,该框架能够解决如ASD等复杂任务。为此,视频帧中的每个人首先被编码为该帧的一个独特节点。同一人在不同帧中的节点相互连接以编码其时间动态。此外,同一帧内的节点也相互连接以编码人际间的关系。因此,SPELL将活跃发言人检测问题简化为一个节点分类任务。重要的是,SPELL能够在不依赖计算成本高昂的全连接图神经网络的情况下,对所有节点进行长时间上下文的推理。通过在AVA-ActiveSpeaker数据集上进行大量实验,我们证明了基于图的学习表示可以显著提高活跃发言人检测性能,这得益于其明确的时空结构。 SPELL不仅超越了所有先前的最先进方法,而且所需的内存和计算资源显著减少。我们的代码已公开发布在https://github.com/SRA2/SPELL。

代码仓库

sra2/spell
官方
pytorch
GitHub 中提及
kylemin/SPELL
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
audio-visual-active-speaker-detection-on-avaSPELL
validation mean average precision: 94.2%
audio-visual-active-speaker-detection-on-avaSPELL+
validation mean average precision: 94.9%
node-classification-on-avaUniCon [zhang2021unicon]
mAP: 92
node-classification-on-avaMAAS-TAN [MAAS2021]
mAP: 88.8
node-classification-on-avaASDNet [ASDNet_ICCV2021]
mAP: 93.5
node-classification-on-avaTalkNet [tao2021someone]
mAP: 92.3

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
学习长期时空图用于活跃说话人检测 | 论文 | HyperAI超神经