3 个月前

面向音视频主动说话人检测的多任务学习

面向音视频主动说话人检测的多任务学习

摘要

本报告阐述了我们参加ActivityNet Challenge 2019中主动说话人检测任务(任务B-2)的方案。我们提出了一种新型音视频融合模型,该模型基于预训练的3D-ResNet18视觉模型(用于唇读)和预训练的VGG-M声学模型(用于音频-视频同步)。该模型采用多任务学习范式,通过两种损失函数进行联合训练:一种对比损失(contrastive loss),用于强化主动说话人音频与视频特征之间的匹配性;另一种为标准交叉熵损失(cross-entropy loss),用于获得说话人/非说话人分类标签。在AVAActiveSpeaker验证集上,该模型取得了84.0%的mAP(平均精度均值)成绩。实验结果表明,预训练的特征嵌入具有良好的跨任务与跨数据格式迁移能力,同时验证了所提出的多任务学习策略的有效性。

基准测试

基准方法指标
audio-visual-active-speaker-detection-on-ava3D-ResNet-GRU
validation mean average precision: 84.0%

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
面向音视频主动说话人检测的多任务学习 | 论文 | HyperAI超神经