4 个月前

SyncVSR:端到端跨模态音频标记同步的数据高效视觉语音识别

SyncVSR:端到端跨模态音频标记同步的数据高效视觉语音识别

摘要

视觉语音识别(VSR)位于计算机视觉和语音识别的交叉点,旨在通过视觉线索解释口语内容。VSR面临的一个主要挑战是同音异义词的存在——即在视觉上相似但代表不同音素的唇部动作。先前的方法试图通过对齐视觉和听觉语义来区分细微的视素,但往往难以实现完全同步。为了解决这一问题,我们提出了SyncVSR,这是一种端到端的学习框架,利用量化音频进行帧级别的跨模态监督。通过集成一个将视觉表示与声学数据同步的投影层,我们的编码器能够在非自回归的方式下从视频序列中生成离散的音频标记。SyncVSR在不同的任务、语言和模态中表现出色,尽管需要一次前向传递。我们的实证评估表明,它不仅达到了当前最先进的水平,还最多减少了九倍的数据使用量。

代码仓库

KAIST-AILab/SyncVSR
官方
jax
GitHub 中提及

基准测试

基准方法指标
landmark-based-lipreading-on-lrs2SyncVSR
Word Error Rate (WER): 74.6
landmark-based-lipreading-on-lrwSyncVSR (Word Boundary)
Top 1 Accuracy: 80.3
landmark-based-lipreading-on-lrwSyncVSR
Top 1 Accuracy: 75.1
lipreading-on-lip-reading-in-the-wildSyncVSR (Word Boundary)
Top-1 Accuracy: 95.0
lipreading-on-lip-reading-in-the-wildSyncVSR
Top-1 Accuracy: 93.2
lipreading-on-lrs2SyncVSR
Word Error Rate (WER): 28.9
lipreading-on-lrs2SyncVSR
Word Error Rate (WER): 16.5
lipreading-on-lrs3-tedSyncVSR
Word Error Rate (WER): 31.2
lipreading-on-lrs3-tedSyncVSR
Word Error Rate (WER): 21.5
lipreading-on-lrw-1000SyncVSR (Word Boundary)
Top-1 Accuracy: 58.2

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
SyncVSR:端到端跨模态音频标记同步的数据高效视觉语音识别 | 论文 | HyperAI超神经