
摘要
本文研究了在无声视频序列中识别口语关键词的任务,也称为视觉关键词识别。为此,我们探讨了基于Transformer的模型,该模型接收两个输入流:视频的视觉编码和关键词的音素编码,并输出关键词的时间位置(如果存在)。我们的贡献如下:(1) 我们提出了一种新颖的架构——Transpotter,该架构在视觉流和音素流之间采用了完全跨模态注意力机制;(2) 通过广泛的评估,我们证明了我们的模型在具有挑战性的LRW、LRS2、LRS3数据集上大幅优于现有的最先进视觉关键词识别和唇读方法;(3) 我们展示了我们的模型在极端条件下(如手语视频中的孤立口型)识别单词的能力。
代码仓库
prajwalkr/transpotter
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| visual-keyword-spotting-on-lrs2 | Transpotter | Top-1 Accuracy: 65 Top-5 Accuracy: 87.1 mAP: 69.2 mAP IOU@0.5: 68.3 |
| visual-keyword-spotting-on-lrs3-ted | Transpotter | Top-1 Accuracy: 52 Top-5 Accuracy: 77.1 mAP: 55.4 mAP IOU@0.5: 53.6 |
| visual-keyword-spotting-on-lrw | Transpotter | Top-1 Accuracy: 85.8 Top-5 Accuracy: 99.6 mAP: 64.1 |