4 个月前

以自我为中心的深度多通道音视频活跃发言人定位

以自我为中心的深度多通道音视频活跃发言人定位

摘要

增强现实设备有潜力提升人类感知能力,并在复杂的对话环境中实现其他辅助功能。为了有效捕捉理解这些社交互动所需的视听上下文,首先需要检测和定位设备佩戴者及其周围人的语音活动。这些任务具有自我中心的特性,因此颇具挑战性:佩戴者的头部运动可能导致运动模糊,周围的人可能出现在难以观察的角度,还可能存在遮挡、视觉杂乱、音频噪声和不良照明等问题。在这些条件下,先前最先进的主动说话人检测方法无法给出令人满意的结果。相反,我们从一个新的角度出发,利用视频和多通道麦克风阵列音频来解决这一问题。我们提出了一种新颖的端到端深度学习方法,能够提供稳健的语音活动检测和定位结果。与以往的方法不同,我们的方法可以从球体上所有可能的方向定位主动说话人,即使在摄像头视野之外也能做到这一点,同时还能检测设备佩戴者自身的语音活动。实验结果表明,所提出的方法具有优越的性能,能够实时运行,并且对噪声和杂乱环境具有较强的鲁棒性。

基准测试

基准方法指标
active-speaker-localization-on-easycomAV (cor+eng+box)
ASL mAP: 0.8632

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
以自我为中心的深度多通道音视频活跃发言人定位 | 论文 | HyperAI超神经