3 个月前

基于双向同步融合的唇图辅助音视频语音识别

基于双向同步融合的唇图辅助音视频语音识别

摘要

现有研究已表明,提取具有代表性的视觉特征并高效融合音频与视觉模态,对于音视频语音识别(Audio-Visual Speech Recognition, AVSR)至关重要,但这一目标仍面临诸多挑战。为此,本文提出一种基于唇部图结构辅助的双向同步融合音视频语音识别方法。首先,构建一个混合视觉流,融合图像分支与图结构分支,以捕捉具有判别性的视觉特征。其中,唇部图利用唇部关键点之间的自然动态关联来建模唇形,并通过图卷积网络(Graph Convolutional Networks)结合双向门控循环单元(Bidirectional Gated Recurrent Units)捕捉唇部图在时间维度上的演化特征。其次,采用基于注意力机制的双向同步融合策略,将混合视觉流与音频流进行融合,实现两个模态间的双向信息交互,有效缓解融合过程中存在的模态不同步问题。在LRW-BBC数据集上的实验结果表明,所提方法在干净环境与噪声环境下均显著优于端到端的AVSR基线模型。

基准测试

基准方法指标
landmark-based-lipreading-on-lrwLip Graph Assisted
Top 1 Accuracy: 49.3

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供