3 个月前

TUKE 参与 MediaEval 2015 QUESST 任务

TUKE 参与 MediaEval 2015 QUESST 任务

摘要

本文介绍了我们为语音查询示例搜索任务(QUery by Example Search on Speech Task, QUESST)所构建的检索系统,该系统结合了基于后验概率图(posteriorgram)的建模方法与加权快速序列动态时间规整算法(Weighted Fast Sequential Dynamic Time Warping, WFS-DTW)。今年的主要工作聚焦于开发一种语言相关的关键词匹配系统,充分利用了语音数据库中所有可用的语种信息,并综合考虑了所有查询语句与语音语料文件。尽管所采用的检索算法与往年保持一致,但本年度的重大创新之处在于如何有效利用检索数据库中所有语种的综合信息。我们提交了两个面向低资源语言的系统,均基于语言相关的声学单元建模(Acoustic Unit Modeling, AUM)方法。第一个系统称为“监督式”系统,采用四个经过充分训练的音素解码器,其声学模型基于时间对齐且标注完整的语音数据进行训练。第二个系统为“无监督式”系统,针对特定语言采用盲音素分割技术,其语言信息来源于Mediaeval 2013与Mediaeval 2014数据库。此外,为评估其对整体检索性能的影响,我们对两种方法均开展了声学模型通过再训练实现针对特定语言的适应性优化研究。

基准测试

基准方法指标
keyword-spotting-on-quesstTUKE g-U late submission (eval)
ATWV: 0.028
Cnxe: 0.974
MTWV: 0.032
MinCnxe: 0.954
keyword-spotting-on-quesstTUKE p-S (eval)
ATWV: 0.002
Cnxe: 0.971
MTWV: 0.022
MinCnxe: 0.953
keyword-spotting-on-quesstTUKE p-S late submission (eval)
ATWV: 0.046
Cnxe: 0.963
MTWV: 0.049
MinCnxe: 0.940
keyword-spotting-on-quesstTUKE p-S (dev)
ATWV: 0.022
Cnxe: 0.970
ISF: 2.312
MTWV: 0.036
MinCnxe: 0.947
PL: 0.068
PMUi: 0.250
PMUs: 1.874
SSF: 0.0061
keyword-spotting-on-quesstTUKE g-U (dev)
ATWV: 0.0001
Cnxe: 0.974
ISF: 0.383
MTWV: 0.031
MinCnxe: 0.953
PL: 0.033
PMUi: 0.515
PMUs: 2.292
SSF: 0.0066
keyword-spotting-on-quesstTUKE p-S late submission (dev)
ATWV: 0.055
Cnxe: 0.962
MTWV: 0.059
MinCnxe: 0.940
keyword-spotting-on-quesstTUKE g-U late submission (dev)
ATWV: 0.032
Cnxe: 0.970
MTWV: 0.035
MinCnxe: 0.951
keyword-spotting-on-quesstTUKE g-U (eval)
ATWV: -0.01
Cnxe: 0.973
MTWV: 0.023
MinCnxe: 0.953

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
TUKE 参与 MediaEval 2015 QUESST 任务 | 论文 | HyperAI超神经