6 个月前

音频和语音处理

计算机视觉

Jacob Donley Vladimir Tourbabin Jung-Suk Lee Mark Broyles Hao Jiang Jie Shen Maja Pantic Vamsi Krishna Ithapu Ravish Mehra

摘要

增强现实（AR）作为一种平台，具备缓解“鸡尾酒会效应”（cocktail party effect）的潜力。未来的AR眼镜有望整合来自多种模态传感器的丰富信息。在诸如波束成形（beam-forming）和语音增强等任务中，训练与测试信号处理及机器学习算法，需要高质量且具有代表性的数据。据作者所知，在本文发表时，尚无公开可用的数据集能够提供在嘈杂环境中包含动态运动与对话的同步第一人称多通道音频与视频数据。本文中，我们描述、评估并发布了一个多模态数据集，其中包含超过5小时的高质量数据，可用于训练和测试旨在提升AR眼镜佩戴者对话体验的算法。我们对基线方法在语音可懂度、语音质量以及信噪比提升等方面进行了评估，并在所有测试指标上均取得了显著改进。本数据集包含以下内容：AR眼镜佩戴者视角的多通道麦克风阵列音频、广角RGB视频、语音源位姿信息、头戴设备内置麦克风音频、语音活动标注、语音转录文本、头部边界框、对话目标识别标签以及语音源身份标签。我们构建并公开发布该数据集，旨在推动多模态AR解决方案在应对鸡尾酒会效应方面的研究进展。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

音频和语音处理

计算机视觉

Jacob Donley Vladimir Tourbabin Jung-Suk Lee Mark Broyles Hao Jiang Jie Shen Maja Pantic Vamsi Krishna Ithapu Ravish Mehra

摘要

增强现实（AR）作为一种平台，具备缓解“鸡尾酒会效应”（cocktail party effect）的潜力。未来的AR眼镜有望整合来自多种模态传感器的丰富信息。在诸如波束成形（beam-forming）和语音增强等任务中，训练与测试信号处理及机器学习算法，需要高质量且具有代表性的数据。据作者所知，在本文发表时，尚无公开可用的数据集能够提供在嘈杂环境中包含动态运动与对话的同步第一人称多通道音频与视频数据。本文中，我们描述、评估并发布了一个多模态数据集，其中包含超过5小时的高质量数据，可用于训练和测试旨在提升AR眼镜佩戴者对话体验的算法。我们对基线方法在语音可懂度、语音质量以及信噪比提升等方面进行了评估，并在所有测试指标上均取得了显著改进。本数据集包含以下内容：AR眼镜佩戴者视角的多通道麦克风阵列音频、广角RGB视频、语音源位姿信息、头戴设备内置麦克风音频、语音活动标注、语音转录文本、头部边界框、对话目标识别标签以及语音源身份标签。我们构建并公开发布该数据集，旨在推动多模态AR解决方案在应对鸡尾酒会效应方面的研究进展。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供