6 个月前

多模态表征

音频和语音处理

Bing Yang Zhan Chen Hong Liu

摘要

现有研究已表明，提取具有代表性的视觉特征并高效融合音频与视觉模态，对于音视频语音识别（Audio-Visual Speech Recognition, AVSR）至关重要，但这一目标仍面临诸多挑战。为此，本文提出一种基于唇部图结构辅助的双向同步融合音视频语音识别方法。首先，构建一个混合视觉流，融合图像分支与图结构分支，以捕捉具有判别性的视觉特征。其中，唇部图利用唇部关键点之间的自然动态关联来建模唇形，并通过图卷积网络（Graph Convolutional Networks）结合双向门控循环单元（Bidirectional Gated Recurrent Units）捕捉唇部图在时间维度上的演化特征。其次，采用基于注意力机制的双向同步融合策略，将混合视觉流与音频流进行融合，实现两个模态间的双向信息交互，有效缓解融合过程中存在的模态不同步问题。在LRW-BBC数据集上的实验结果表明，所提方法在干净环境与噪声环境下均显著优于端到端的AVSR基线模型。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

多模态表征

音频和语音处理

Bing Yang Zhan Chen Hong Liu

摘要

现有研究已表明，提取具有代表性的视觉特征并高效融合音频与视觉模态，对于音视频语音识别（Audio-Visual Speech Recognition, AVSR）至关重要，但这一目标仍面临诸多挑战。为此，本文提出一种基于唇部图结构辅助的双向同步融合音视频语音识别方法。首先，构建一个混合视觉流，融合图像分支与图结构分支，以捕捉具有判别性的视觉特征。其中，唇部图利用唇部关键点之间的自然动态关联来建模唇形，并通过图卷积网络（Graph Convolutional Networks）结合双向门控循环单元（Bidirectional Gated Recurrent Units）捕捉唇部图在时间维度上的演化特征。其次，采用基于注意力机制的双向同步融合策略，将混合视觉流与音频流进行融合，实现两个模态间的双向信息交互，有效缓解融合过程中存在的模态不同步问题。在LRW-BBC数据集上的实验结果表明，所提方法在干净环境与噪声环境下均显著优于端到端的AVSR基线模型。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供