
摘要
视觉语音识别(VSR)位于计算机视觉和语音识别的交叉点,旨在通过视觉线索解释口语内容。VSR面临的一个主要挑战是同音异义词的存在——即在视觉上相似但代表不同音素的唇部动作。先前的方法试图通过对齐视觉和听觉语义来区分细微的视素,但往往难以实现完全同步。为了解决这一问题,我们提出了SyncVSR,这是一种端到端的学习框架,利用量化音频进行帧级别的跨模态监督。通过集成一个将视觉表示与声学数据同步的投影层,我们的编码器能够在非自回归的方式下从视频序列中生成离散的音频标记。SyncVSR在不同的任务、语言和模态中表现出色,尽管需要一次前向传递。我们的实证评估表明,它不仅达到了当前最先进的水平,还最多减少了九倍的数据使用量。
代码仓库
KAIST-AILab/SyncVSR
官方
jax
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| landmark-based-lipreading-on-lrs2 | SyncVSR | Word Error Rate (WER): 74.6 |
| landmark-based-lipreading-on-lrw | SyncVSR (Word Boundary) | Top 1 Accuracy: 80.3 |
| landmark-based-lipreading-on-lrw | SyncVSR | Top 1 Accuracy: 75.1 |
| lipreading-on-lip-reading-in-the-wild | SyncVSR (Word Boundary) | Top-1 Accuracy: 95.0 |
| lipreading-on-lip-reading-in-the-wild | SyncVSR | Top-1 Accuracy: 93.2 |
| lipreading-on-lrs2 | SyncVSR | Word Error Rate (WER): 28.9 |
| lipreading-on-lrs2 | SyncVSR | Word Error Rate (WER): 16.5 |
| lipreading-on-lrs3-ted | SyncVSR | Word Error Rate (WER): 31.2 |
| lipreading-on-lrs3-ted | SyncVSR | Word Error Rate (WER): 21.5 |
| lipreading-on-lrw-1000 | SyncVSR (Word Boundary) | Top-1 Accuracy: 58.2 |