4 个月前

基于不确定性的多模态融合在主动说话人检测中的多目标优化

基于不确定性的多模态融合在主动说话人检测中的多目标优化

摘要

目前,多项研究表明,在检测活跃发言者时,结合视频和音频数据可以显著提高效果。然而,任一模态都有可能通过引入不可靠或误导性的信息而对视听融合产生负面影响。本文提出了一种多目标学习问题框架下的活跃发言者检测方法,利用一种新颖的自注意力、基于不确定性的多模态融合方案来充分发挥各模态的优势。实验结果表明,所提出的多目标学习架构在提升mAP(平均精度均值)和AUC(曲线下面积)分数方面优于传统方法。我们进一步证明了我们的融合策略在活跃发言者检测中超越了其他学科报道的各种模态融合方法。最后,我们展示了该方法在AVA-ActiveSpeaker数据集上的表现显著优于现有技术水平。

基准测试

基准方法指标
audio-visual-active-speaker-detection-on-avaSA-uncertainty Fusion
validation mean average precision: 91.9%

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于不确定性的多模态融合在主动说话人检测中的多目标优化 | 论文 | HyperAI超神经