
摘要
本文介绍了纽约市立大学皇后学院语音实验室(Speech Lab, Queens College, CUNY)开发的两个基于示例查询(query-by-example)系统。我们的系统旨在从选定的参考语料库文件中快速返回搜索结果。为获取查询语料与参考语料的音素序列,系统采用了三种语音识别器(捷克语、匈牙利语和俄语)。对每个查询序列,均采用全局对齐器与局部对齐器分别与所有参考序列进行比对。在第一个系统中,基于序列对齐结果预测最可能的参考文件;在第二个系统中,首先从参考序列中剪枝出能够实现最优局部符号对齐的子序列,随后提取查询语料及子序列的39维MFCC特征。两个系统均采用了优化的动态时间规整(DTW)算法,分别在测试数据上取得了Cnxe值为0.9989和1.0674的性能表现。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| keyword-spotting-on-quesst | CUNY [SMO+iSAX] (dev) | ATWV: 0.0011 Cnxe: 0.9988 MTWV: 0.0067 MinCnxe: 0.9872 |
| keyword-spotting-on-quesst | CUNY [Subseq+MFCC] (eval) | ATWV: -4.0205 Cnxe: 1.0674 MTWV: 0.0006 MinCnxe: 0.9853 |
| keyword-spotting-on-quesst | CUNY [Subseq+MFCC] (dev) | ATWV: -3.9820 Cnxe: 1.0658 MTWV: 0.0123 MinCnxe: 0.9823 |
| keyword-spotting-on-quesst | CUNY [SMO+iSAX] (eval) | ATWV: 0.0006 Cnxe: 0.9989 MTWV: 0.0010 MinCnxe: 0.9870 |