3 个月前

论度量学习在说话人识别中的应用价值

论度量学习在说话人识别中的应用价值

摘要

本文的研究目标是实现对未见说话人的“开放集”说话人识别,理想的嵌入表示应能将信息压缩为紧凑的语音段级表征,同时具备较小的说话人内距离和较大的说话人间距离。在说话人识别领域,一种普遍观点认为,采用分类目标训练的网络性能优于度量学习方法。本文在VoxCeleb数据集上对主流的说话人识别损失函数进行了全面评估。结果表明,原始的三元组损失(vanilla triplet loss)在性能上可与基于分类的损失方法相媲美;而采用本文所提出的度量学习目标训练的模型,则优于当前最先进的方法。

代码仓库

coqui-ai/TTS
pytorch
GitHub 中提及
shkim816/temporal_dynamic_cnn
pytorch
GitHub 中提及

基准测试

基准方法指标
real-time-semantic-segmentation-on-cityscapes-1SwiftNetRN-18
Frame (fps): 39.9
mIoU: 75.5%

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
论度量学习在说话人识别中的应用价值 | 论文 | HyperAI超神经