8 个月前

音频和语音处理

Jordan J. Bird Ahmad Lotfi

摘要

生成式人工智能在语音领域的应用日益广泛，包括声音克隆和实时语音转换技术，这些技术能够将一个人的声音实时转换为另一个人的声音。然而，这项技术带来了显著的伦理威胁，可能导致隐私泄露和身份冒用，因此迫切需要开发能够实时检测深度伪造语音的技术。为了应对上述新兴问题，本研究生成了DEEP-VOICE数据集，该数据集包含八位知名人士的真实人类语音及其相互之间的检索式语音转换结果。通过t检验对时间音频特征进行统计分析，发现真实语音和AI生成的语音在分布上存在显著差异。为了识别语音来源，实施了机器学习模型的超参数优化。经过10折交叉验证训练208个独立的机器学习模型后，研究发现极端梯度提升（Extreme Gradient Boosting）模型可以达到平均99.3%的分类准确率，并且能够在大约0.004毫秒内完成一秒钟语音的实时分类。本研究生成的所有数据均已公开发布，供未来在AI语音检测方面的研究使用。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

音频和语音处理

Jordan J. Bird Ahmad Lotfi

摘要

生成式人工智能在语音领域的应用日益广泛，包括声音克隆和实时语音转换技术，这些技术能够将一个人的声音实时转换为另一个人的声音。然而，这项技术带来了显著的伦理威胁，可能导致隐私泄露和身份冒用，因此迫切需要开发能够实时检测深度伪造语音的技术。为了应对上述新兴问题，本研究生成了DEEP-VOICE数据集，该数据集包含八位知名人士的真实人类语音及其相互之间的检索式语音转换结果。通过t检验对时间音频特征进行统计分析，发现真实语音和AI生成的语音在分布上存在显著差异。为了识别语音来源，实施了机器学习模型的超参数优化。经过10折交叉验证训练208个独立的机器学习模型后，研究发现极端梯度提升（Extreme Gradient Boosting）模型可以达到平均99.3%的分类准确率，并且能够在大约0.004毫秒内完成一秒钟语音的实时分类。本研究生成的所有数据均已公开发布，供未来在AI语音检测方面的研究使用。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供