3 个月前

新加坡国立大学HLT团队关于ActivityNet Challenge 2021 AVA(发言人)的报告

新加坡国立大学HLT团队关于ActivityNet Challenge 2021 AVA(发言人)的报告

摘要

主动说话人检测(Active Speaker Detection, ASD)旨在识别视觉场景中正在说话的说话人,该场景可能包含一个或多个说话人。成功的ASD依赖于对短时与长时音频及视觉信息的准确理解,以及音视频模态间的有效交互。与以往仅依赖短时特征进行即时决策的系统不同,本文提出一种新型框架——TalkNet,该框架通过综合考虑短时与长时特征来做出判断。TalkNet由音频与视觉时序编码器构成,用于特征表示;引入音视频交叉注意力机制以实现跨模态交互;并采用自注意力机制捕捉长期的说话证据。实验结果表明,TalkNet在AVA-ActiveSpeaker验证集和测试集上分别相较于当前最优系统取得了3.5%和3.0%的性能提升。相关代码、模型及数据日志将对外公开发布。

基准测试

基准方法指标
audio-visual-active-speaker-detection-on-avaTalkNet
validation mean average precision: 92.3%

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
新加坡国立大学HLT团队关于ActivityNet Challenge 2021 AVA(发言人)的报告 | 论文 | HyperAI超神经