4 个月前

视听活动引导的跨模态身份关联在主动说话人检测中的应用

视听活动引导的跨模态身份关联在主动说话人检测中的应用

摘要

视频中的活跃说话者检测旨在将视频帧中可见的源面部与音频模态中的底层语音关联起来。建立这种语音-面部关系的主要信息来源有两方面:i) 视觉活动及其与语音信号的交互;ii) 以面部和语音形式在不同模态间共现的说话者身份。这两种方法各有其局限性:视听活动模型容易被其他频繁出现的发声活动(如笑和咀嚼)所混淆,而基于说话者身份的方法则受限于视频中是否包含足够的区分信息来建立语音-面部关联。由于这两种方法是独立的,我们在本研究中探讨了它们的互补性质。我们提出了一种新颖的无监督框架,用于指导说话者的跨模态身份关联与视听活动相结合,以实现活跃说话者检测。通过在两个基准数据集上的娱乐媒体视频进行实验,即AVA活跃说话者数据集(电影)和视觉人物聚类数据集(电视剧),我们展示了两种方法的简单后期融合可以提高活跃说话者检测的性能。

代码仓库

rash1993/movie-asd
官方
pytorch

基准测试

基准方法指标
audio-visual-active-speaker-detection-on-avaGSCMIA
validation mean average precision: 92.86%
audio-visual-active-speaker-detection-on-vpcdGSCMIA
mean average precision: 83.90

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
视听活动引导的跨模态身份关联在主动说话人检测中的应用 | 论文 | HyperAI超神经