3 个月前

ICTCAS-UCAS-TAL 在 ActivityNet Challenge 2021 的 AVA-ActiveSpeaker 任务中的提交

ICTCAS-UCAS-TAL 在 ActivityNet Challenge 2021 的 AVA-ActiveSpeaker 任务中的提交

摘要

本报告简要介绍了我们在ActivityNet Challenge 2021中参与AVA主动说话者检测(Active Speaker Detection, ASD)任务的方法。我们的解决方案——扩展统一上下文网络(Extended Unified Context Network,简称Extended UniCon),基于一种专为鲁棒性说话者检测设计的新颖统一上下文网络(Unified Context Network, UniCon)。该网络通过融合多种类型的上下文信息,实现对所有候选目标的联合优化。我们在原始UniCon的基础上,对音频特征表示、时间建模架构以及损失函数设计进行了若干改进。最终,我们的最佳模型集成在AVA-ActiveSpeaker测试集上取得了93.4%的mAP(平均精度均值),且无需任何形式的预训练,创下新的最先进水平,目前在ActivityNet挑战赛排行榜上位居第一。

基准测试

基准方法指标
audio-visual-active-speaker-detection-on-avaExtended UniCon
validation mean average precision: 93.6%

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
ICTCAS-UCAS-TAL 在 ActivityNet Challenge 2021 的 AVA-ActiveSpeaker 任务中的提交 | 论文 | HyperAI超神经