
摘要
本文介绍了GTM-UVigo团队在MediaEval 2015语音查询示例搜索任务(QUESST)中所开发的系统。该系统由11个基于动态时间规整(Dynamic Time Warping, DTW)的模块融合而成,采用音素后验图(phoneme posteriorgrams)作为语音表示。其中,主系统提出了一种方法,用于在每个音素解码器中选择最相关的语音单元,从而显著提升了搜索结果的性能。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| keyword-spotting-on-quesst | GTM-UVigo Contrastive (eval) | Cnxe: 0.999 MinCnxe: 0.923 lowerbound : 0.633 |
| keyword-spotting-on-quesst | GTM-UVigo Contrastive (dev) | Cnxe: 0.998 MinCnxe: 0.918 lowerbound : 0.635 |
| keyword-spotting-on-quesst | GTM-UVigo Primary late submission (eval) | Cnxe: 0.871 MinCnxe: 0.838 lowerbound : 0.592 |
| keyword-spotting-on-quesst | GTM-UVigo Contrastive late submission (dev) | Cnxe: 0.907 MinCnxe: 0.864 lowerbound : 0.618 |
| keyword-spotting-on-quesst | GTM-UVigo Contrastive late submission (eval) | Cnxe: 0.989 MinCnxe: 0.852 lowerbound : 0.613 |
| keyword-spotting-on-quesst | GTM-UVigo Primary (eval) | Cnxe: 0.919 MinCnxe: 0.905 lowerbound : 0.629 |
| keyword-spotting-on-quesst | GTM-UVigo Primary (dev) | Cnxe: 0.917 MinCnxe: 0.905 lowerbound : 0.627 |
| keyword-spotting-on-quesst | GTM-UVigo Primary late submission (dev) | Cnxe: 0.875 MinCnxe: 0.847 lowerbound : 0.593 |