4 个月前

一种轻量级的主动说话人检测模型

一种轻量级的主动说话人检测模型

摘要

活跃说话人检测是在音视频场景理解中的一项具有挑战性的任务,其目标是在一个或多个说话人的场景中检测出谁在说话。该任务因其在说话人日志、说话人跟踪和自动视频编辑等应用中的重要性而受到了广泛关注。现有的研究试图通过输入多个候选信息并设计复杂的模型来提高性能。尽管这些方法取得了出色的性能,但它们对内存和计算资源的高消耗使得在资源受限的场景中难以应用。因此,我们构建了一种轻量级的活跃说话人检测架构,通过减少输入候选信息、分离二维和三维卷积进行音视频特征提取,并应用低计算复杂度的门控循环单元(GRU)进行跨模态建模。实验结果表明,在AVA-ActiveSpeaker数据集上,我们的框架实现了具有竞争力的mAP性能(94.1%对比94.2%),同时资源成本显著低于现有最先进方法,特别是在模型参数(1.0M对比22.5M,约23倍)和浮点运算次数(FLOPs)(0.6G对比2.6G,约4倍)。此外,我们的框架在Columbia数据集上的表现也很好,显示出良好的鲁棒性。代码和模型权重可在以下链接获取:https://github.com/Junhua-Liao/Light-ASD。

代码仓库

junhua-liao/light-asd
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
audio-visual-active-speaker-detection-on-avaLight-ASD
validation mean average precision: 94.1%

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
一种轻量级的主动说话人检测模型 | 论文 | HyperAI超神经