
摘要
本文介绍了印度理工学院孟买分校(I.I.T. Bombay)在MediaEval 2015评估框架下,针对语音查询任务(Query-by-Example Search on Speech Task, QUESST)所开发的系统。该系统首先对原始数据进行预处理,以消除噪声;随后,利用四个语音识别系统提取的后验概率(posterior)或瓶颈特征(bottleneck features),在子序列层面执行动态时间规整(subsequence DTW)以检测查询内容。各子系统的得分经过融合,生成每个查询-语音片段对的单一得分,并基于交叉熵(cross entropy)评估指标对该得分进行校准。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| keyword-spotting-on-quesst | IIT-B (eval) | ATWV: 0.0254 Cnxe: 0.9536 MTWV: 0.0421 MinCnxe: 0.9364 |
| keyword-spotting-on-quesst | IIT-B (dev) | ATWV: 0.0812 Cnxe: 0.9213 MTWV: 0.816 MinCnxe: 0.9082 |