
摘要
主动说话者检测需要多模态线索的坚实融合。虽然单个模态可以近似解决问题,但只有通过显式融合音频和视觉特征并建模其时间演变过程,才能实现准确预测。尽管该问题具有固有的多模态特性,当前的方法仍然主要集中在对个别说话者的短期音视频特征进行建模和融合,通常是在帧级别上。本文提出了一种新的主动说话者检测方法,直接解决了问题的多模态性质,并提供了一种简单的策略,即将场景中潜在说话者的独立视觉特征分配给先前检测到的语音事件。实验表明,从单帧构建的小型图数据结构可以近似解决瞬时音视频分配问题。此外,该初始图的时间扩展在AVA-ActiveSpeaker数据集上达到了新的最先进水平,mAP为88.8%。
代码仓库
fuankarion/maas
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| audio-visual-active-speaker-detection-on-ava | MAAS-TAN | validation mean average precision: 88.8% |
| audio-visual-active-speaker-detection-on-ava | MAAS-LAN | validation mean average precision: 85.1% |