6 个月前

卷积神经网络

多任务学习

音频和语音处理

Nithin Rao Koluguri Taejin Park Boris Ginsburg

摘要

本文提出了一种名为TitaNet的新型神经网络架构，用于提取说话人表征。该模型采用一维深度可分离卷积（1D depth-wise separable convolutions），并结合具有全局上下文感知能力的Squeeze-and-Excitation（SE）模块，随后引入基于通道注意力的统计池化层，将变长语音片段映射为固定长度的嵌入向量（即t向量）。TitaNet具有良好的可扩展性，在说话人验证任务中取得了当前最优性能：在VoxCeleb1测试集上达到0.68%的等错误率（Equal Error Rate, EER）；在说话人分割任务中，于AMI-MixHeadset数据集上实现1.73%的分割错误率（Diarization Error Rate, DER），在AMI-Lapel数据集上为1.99%，在CH109数据集上为1.11%。此外，我们系统研究了不同规模的TitaNet模型，并提出了一种轻量化版本——TitaNet-S，其参数量仅为600万，在说话人分割任务中取得了接近当前最优的性能表现。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

卷积神经网络

多任务学习

音频和语音处理

Nithin Rao Koluguri Taejin Park Boris Ginsburg

摘要

本文提出了一种名为TitaNet的新型神经网络架构，用于提取说话人表征。该模型采用一维深度可分离卷积（1D depth-wise separable convolutions），并结合具有全局上下文感知能力的Squeeze-and-Excitation（SE）模块，随后引入基于通道注意力的统计池化层，将变长语音片段映射为固定长度的嵌入向量（即t向量）。TitaNet具有良好的可扩展性，在说话人验证任务中取得了当前最优性能：在VoxCeleb1测试集上达到0.68%的等错误率（Equal Error Rate, EER）；在说话人分割任务中，于AMI-MixHeadset数据集上实现1.73%的分割错误率（Diarization Error Rate, DER），在AMI-Lapel数据集上为1.99%，在CH109数据集上为1.11%。此外，我们系统研究了不同规模的TitaNet模型，并提出了一种轻量化版本——TitaNet-S，其参数量仅为600万，在说话人分割任务中取得了接近当前最优的性能表现。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供