
摘要
本文介绍了我们为语音查询示例搜索任务(QUery by Example Search on Speech Task, QUESST)所构建的检索系统,该系统结合了基于后验概率图(posteriorgram)的建模方法与加权快速序列动态时间规整算法(Weighted Fast Sequential Dynamic Time Warping, WFS-DTW)。今年的主要工作聚焦于开发一种语言相关的关键词匹配系统,充分利用了语音数据库中所有可用的语种信息,并综合考虑了所有查询语句与语音语料文件。尽管所采用的检索算法与往年保持一致,但本年度的重大创新之处在于如何有效利用检索数据库中所有语种的综合信息。我们提交了两个面向低资源语言的系统,均基于语言相关的声学单元建模(Acoustic Unit Modeling, AUM)方法。第一个系统称为“监督式”系统,采用四个经过充分训练的音素解码器,其声学模型基于时间对齐且标注完整的语音数据进行训练。第二个系统为“无监督式”系统,针对特定语言采用盲音素分割技术,其语言信息来源于Mediaeval 2013与Mediaeval 2014数据库。此外,为评估其对整体检索性能的影响,我们对两种方法均开展了声学模型通过再训练实现针对特定语言的适应性优化研究。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| keyword-spotting-on-quesst | TUKE g-U late submission (eval) | ATWV: 0.028 Cnxe: 0.974 MTWV: 0.032 MinCnxe: 0.954 |
| keyword-spotting-on-quesst | TUKE p-S (eval) | ATWV: 0.002 Cnxe: 0.971 MTWV: 0.022 MinCnxe: 0.953 |
| keyword-spotting-on-quesst | TUKE p-S late submission (eval) | ATWV: 0.046 Cnxe: 0.963 MTWV: 0.049 MinCnxe: 0.940 |
| keyword-spotting-on-quesst | TUKE p-S (dev) | ATWV: 0.022 Cnxe: 0.970 ISF: 2.312 MTWV: 0.036 MinCnxe: 0.947 PL: 0.068 PMUi: 0.250 PMUs: 1.874 SSF: 0.0061 |
| keyword-spotting-on-quesst | TUKE g-U (dev) | ATWV: 0.0001 Cnxe: 0.974 ISF: 0.383 MTWV: 0.031 MinCnxe: 0.953 PL: 0.033 PMUi: 0.515 PMUs: 2.292 SSF: 0.0066 |
| keyword-spotting-on-quesst | TUKE p-S late submission (dev) | ATWV: 0.055 Cnxe: 0.962 MTWV: 0.059 MinCnxe: 0.940 |
| keyword-spotting-on-quesst | TUKE g-U late submission (dev) | ATWV: 0.032 Cnxe: 0.970 MTWV: 0.035 MinCnxe: 0.951 |
| keyword-spotting-on-quesst | TUKE g-U (eval) | ATWV: -0.01 Cnxe: 0.973 MTWV: 0.023 MinCnxe: 0.953 |